- 博客(39)
- 收藏
- 关注
原创 python爬虫数据存进mysql数据库
我已经在电脑上安装了最新的mysql8.2.0,配置好环境变量,在命令提示符中以管理员的身份初始化并成功启动mysql数据库。前期因为以前的mysql没有卸载干净,导致mysql一直无法启动服务。所以一定要保证以前的mysql卸载干净才能重新安装,以前没有安装过的忽略。
2024-10-22 11:56:19 1286
原创 Python爬虫学习
print(i) # 得到的结果是("name":"吴谦") ("age":28)a.pop() # 返回最后一个元素,a的最后一个元素被删除,可print(a)print(s1.find('a')) # 4 , 第一次出现的位置,如果没出现过就返回-1。print("我的名字是%s,我的年龄是%d" % (name,age))# 遍历方法:keys() values() items()
2024-10-18 16:49:18 1252
原创 【python爬虫】携程旅行景点游客数据分析与可视化
247 .set_global_opts(title_opts=opts.TitleOpts(title="亚龙湾热带天堂森林公园词云图", pos_top="5%", pos_left="center"),25 title_opts=opts.TitleOpts(title="亚龙湾热带天堂森林公园词云图", pos_top="5%", pos_left="center"),
2024-10-17 17:22:38 1595
原创 【python爬虫课程设计】天气预报——分类数据爬取+数据可视化
通过Python网络爬虫爬取天气预报让我们快速获取和分析大量的天气数据,并通过可视化手段展示其特征和规律。140 df['最高气温'] = df['最高气温'].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)13 df['最高气温'] = df['最高气温'].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)
2024-10-16 17:31:51 1527
原创 你必须要知道的100个常用Python库,建议收藏!
是一个强大的数据库抽象层库,允许使用 Python 代码与各种数据库进行交互,支持多种数据库,如 MySQL、PostgreSQL、SQLite 等,提供了统一的操作接口。用于机器学习的常用库,提供了丰富的机器学习算法和工具,包括分类、回归、聚类、降维等算法,方便用户进行模型训练和评估。是一个强大的绘图库,能够创建各种类型的图表,如折线图、柱状图、散点图等,用于数据可视化,帮助用户更直观地理解数据。用于图像处理和计算机视觉的算法库,提供了各种图像滤波、边缘检测、形态学操作等函数,方便进行图像分析和处理。
2024-10-15 15:17:42 418
原创 Python语言概述
工具来管理扩展库,默认情况下,Python 3.x会自动安装pip工具。pip命令不仅可以实时查看本机已经安装的扩展库列表,还支持扩展库的安装、升级、卸载等操作。注意:用pip命令管理Python扩展库需要在命令提示符环境中进行,并且需要切换至pip所在目录。在当前单元格上面创建一个新的单元格。在当前单元格下面创建一个新的单元格。三. Python语言的应用。五. Python语言的优点。一.Python语言的历史。四.Python语言的特点。六.Python语言的缺点。八.Python的安装方式。
2024-10-11 17:50:25 686
原创 python的介绍以及基本操作
(1)python是一门编程语言(比如:java、c++、c、.net、go等都是编程语言)python 也是胶水语言(2)python是一门面向对象,解释型的动态类型的编程语言,a、什么是面向对象?python 中一切皆为对象,对事物的描述和方法系统的定义为一个类,在这个类中的具体的实例,我们就说对象;例如: 人:类======== zs 对象(一个具体的对象)b、解释型python程序执行时无需先进行编译成二进制代码不编译,直接在执行过程中对语句一条条进行编译;
2024-10-10 17:45:31 1311
原创 Python验证码识别——前处理
一般的验证码识别,都是先进行前处理,然后分割,在进行识别。这个验证码没有其他噪音,但存在一条横穿的曲线干扰,并且验证码中字体是粘连在一起的。目前不少系统的验证码做得越来越复杂,人眼都难以识别,尤其是QQ之类的验证码,想要识别,太难了。
2024-10-09 13:47:59 520
原创 彻底搞懂【Python】切片操作
在利用Python解决各种实际问题的过程中,经常会遇到从某个对象中抽取部分值的情况,正是专门用于完成这一操作的有力武器。理论上而言,只要条件表达式得当,可以通过单次或多次切片操作实现任意切取目标值。切片操作的基本语法比较简单,但如果不彻底搞清楚内在逻辑,也极容易产生错误,而且这种错误有时隐蔽得比较深,难以察觉。本文通过详细例子总结归纳了切片操作的各种情况。若有错误和不足之处请大牛指正!
2024-10-08 13:57:29 1060
原创 python操作Excel表格
存测试数据有时候有大批量的数据,存到TXT文件里面显然不是最佳的方式,我们可以存到Excel里面去,第一方便我们存数据和做数据,另一方面方便我们读取数据,比较明朗。测试的时候就从数据库中读取出来,这点是非常重要的。存测试结果可以批量把结果存入到Excel中,也是比较好整理数据点,比我们的TXT要好。
2024-10-07 16:45:09 1150
原创 【爬虫实战】python入门爬取猫眼电影排行
应用场景:1、抓取特定网站或应用的内容,提取出有价值的信息。2、模拟用户在浏览器或应用中的操作,实现自动化流程。爬虫是什么专业术语:网络爬虫(又称网页蜘蛛、网络机器人)网络爬虫是一种自动按照特定规则抓取网页信息的程序或脚本。爬虫起源随着网络的迅猛发展,万维网成为海量信息的载体,如何有效地提取和利用这些信息成为一项巨大挑战。搜索引擎如Yahoo、Google、百度等,作为帮助人们检索信息的工具,成为用户访问万维网的入口和指南。
2024-10-06 14:43:53 1532
原创 【python开发环境搭建】
在顶部搜索框里输入想要安装的包名称,就可以搜索到安装包,然后选择它,点击左下角的Install Package,IDE就开始进入下载安装了,如果出现由于网络原因造成安装失败,可以点击其他项后再点回来,然后点安装,多次后就可以安装成功,反复进行后还是无法安装成功的,可以点击查看出错原因,也可以使用命令方式进行,直接看到出错原因。虽然网上有很多python开发环境搭建的文章,不过重复造轮子还是要的,记录一下过程,方便自己以后配置,也方便正在学习中的同事配置他们的环境。要配置编辑界面皮肤,可按下面进行配置。
2024-09-30 17:58:02 1293
原创 Python网络爬虫入门篇
注意:网络连接有风险。Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。使用http库向目标站点发起请求,即发送一个Request,Request包含:请求头、请求体等。Response对象包含服务器返回的所有信息,也包含请求的Request信息。如果requests的内容存在于目标服务器上,那么服务器会返回请求内容。解析得到的数据可以多种形式,如文本,音频,视频保存在本地。**kwargs:控制访问的参数,均为可选项,共以下13个。
2024-09-29 14:29:17 1638
原创 python 操作RabbitMq详解
RabbitMq 是实现了高级消息队列协议(AMQP)的开源消息代理中间件。消息队列是一种应用程序对应用程序的通行方式,应用程序通过写消息,将消息传递于队列,由另一应用程序读取 完成通信。而作为中间件的 RabbitMq 无疑是目前最流行的消息队列之一。系统的高可用:日常生活当中各种商城秒杀,高流量,高并发的场景。当服务器接收到如此大量请求处理业务时,有宕机的风险。
2024-09-28 17:59:50 872
原创 python爬虫_爬虫原理和数据抓取
从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否及时,因此其性能的优劣直接影响着搜索引擎的效果。著名的革命家、思想家、政治家、战略家、社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT即数据技术,由数据在推倒人们的衣食住行,当今时代是一个。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。好的代码像粥一样,都是用时间熬出来的。
2024-09-25 16:38:40 1439
原创 Python 爬虫练手项目—酒店信息爬取
①Strip()方法用于删除开始或结尾的字符。lstrip()|rstirp()分别从左右执行删除操作。默认情况下会删除空白或者换行符,也可以指定其他字符。②如果想处理中间的空格,需要求助其他技术 ,比如replace(),或者正则表达式。③strip()和其他迭代结合,从文件中读取多行数据,使用生成器表达式。遇到的问题及解决办法。
2024-09-24 16:12:16 508
原创 【python】 实现爬取网站下所有URL
从第二步获取URL的基础上,遍历请求每个页面,获取页面中的URL链接,过滤掉不需要的信息。首先检查元素,a 标签下是我们需要爬取得链接,通过获取链接路径,定位出我们需要的信息。
2024-09-20 17:29:11 505
原创 一个月入门Python爬虫,轻松爬取大规模数据
scrapy 是一个功能非常强大的爬虫框架,它不仅能便捷地构建request,还有强大的 selector 能够方便地解析 response,然而它最让人惊喜的还是它超高的性能,让你可以将爬虫工程化、模块化。如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单、容易上手。当然唯一麻烦的是,在具体的问题中,如何找到具体需要的那部分学习资源、如何筛选和甄别,是很多初学者面临的一个大问题。
2024-09-19 14:09:58 977
原创 【Python】多线程爬虫爬取电影天堂资源
有一个需要注意的地方就是编码问题,但是也是被这个编码纠缠了好久,通过查看网页的源代码,我们可以发现,网页的编码采用的是GB2312,这里通过XPath构造Tree对象是需要对文本信息进行解码操作,将gb2312变成Unicode编码,这样DOM树结构才是正确的,要不然在后面解析的时候就会出现问题。一个爬虫首先要给它一个起点,所以需要精心选取一些URL作为起点,然后我们的爬虫从这些起点出发,抓取并解析所抓取到的页面,将所需要的信息提取出来,同时获得的新的URL插入到队列中作为下一次爬取的起点。
2024-09-15 18:00:31 956
原创 Graphviz 安装并使用 (Python)
Graphviz 是一款由 AT&T Research 和 Lucent Bell 实验室开源的可视化图形工具,可以很方便的用来绘制结构化的图形网络,支持多种格式输出。Graphviz 输入是一个用 dot 语言编写的绘图脚本,通过对输入脚本的解析,分析出其中的点、边及子图,然后根据属性进行绘制。Graphviz layout 以简单的文本语言描述图形,并以实用的格式制作图表,如用于网页的 images 和 SVG;用于放入在其它文件中或显示在交互式图形浏览器中的 PDF 和 Postscript。——
2024-09-14 18:01:55 1498
原创 如何使用【Python】快速制作可视化报表
Echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。就数据分析而言,可视化探索几乎是你正式进行数据分析的第一步,通过SQL拿到数据之后,我们需要使用可视化方法探索和发现数据中的模式规律。除此此外,数据分析的大多时候都是要兜售自己的观点和结论的,而兜售的最好方式就是做出观点清晰数据详实的PPT和报表给老板看。领英的数据报告显示,数据可视化技能在2017年中国最热门技能中排名第一。这里只是一个简单的介绍,感兴趣的可以。
2024-09-14 13:59:18 547
原创 【python】爬取网站数据
可以看到,其实存储在计算机中的只是这样的编码,而不是一个一个的汉字,在print的时候要知道当时是用的什么样的编码方式,才能正确的print出来。在python中Unicode是一类对象,表现为以u打头的,比如u'中文',而string又是一类对象,是在具体编码方式下的实际存在计算机上的字符串。结合以上两点,最终采取了这么一个策略,如果行数是1000的倍数,进行一次flush,如果行数超过65536,新开一个sheet,如果超过3个sheet,则新建一个文件。如果有稍微的不统一,就会失败。
2024-09-13 14:57:20 862
原创 【PyCharm】和git安装教程
工作空间的新建代码(红色)——>add——> index暂存区(绿色)——>commit——>本地版本库代码(绿色)——>push——>github/gitlab/gitee(做过修改是蓝色的,忽略的文件是灰色的)选择settings->Version Control->Git,进行本地git配置 ,输入git的安装目录下git.exe运行文件目录,如图所示,点击Test,查看是否运行成功。能够让你的代码有版本(快照)存档,可以随时回到任何一个版本。修改和增加差不多,先修改文件,然后提交。
2024-09-13 09:13:13 2426
原创 [数据分析与可视化] Python绘制数据地图2-GeoPandas地图可视化
如下代码所示,绘制江苏省地级市GDP地图。# 读取2019江苏省各市GDP数据# 数据来自互联网gdp = pd.read_csv("2022江苏省各市GDP.csv")gdp排行地级市2022年GDP(亿元)01苏州市23958.312南京市16907.923无锡市14850.834南通市11379.645常州市9550.156徐州市8457.867盐城市7079.878扬州市6696.489泰州市6401.89。
2024-09-12 17:59:22 1319
原创 【零基础如何学Python爬虫技术?】
一点伪装和暂停都没有,去别人网站抓取数据,很明显的告诉别人 “我是一只爬虫,快来阻止我”。网站的工程师也很友善,构造了一大批虚假的数据给大学生,层层蜜罐下达到。五月份是各大高校提交毕业论文的时候,大学生们为了获取数据,开始在网上寻找各种爬虫。但是重点来了,在技术不过硬的情况下,大学生式的。到2014年7月为止,在美国顶尖大学里最受欢迎的计算机编程入门语言中,尤其是现在反爬虫日渐严峻的情况下,如何伪装自己的爬虫尤为重要,例如。提供了强大的解析功能,能用又短有简单的方式精准的提取出想要的信息。
2024-09-10 14:23:14 680
原创 【python爬虫】之scrapy框架介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
2024-09-09 17:34:54 1912
原创 [Python之代码爬虫] -爬取披头士乐队历年专辑封面-网易云音乐
前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图。通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小。我的例子怎么都是爬取图片?(谁让你总是跟设计师小伙伴一起玩耍。。。)看来图片对于设计师来说还是有着很深的情节,那就看他用这些图片能做出什么样的作品啦,期待一下,后续会展示一下他的作品。其实爬取网易云音乐跟之前爬取的网站稍稍有点不同,当然,爬虫写的多了就觉得套路都是固定的,见招拆招而已。
2024-09-06 22:15:00 1104
原创 PyCharm的使用教程详解;PyCharm编程利器安装包下载!
PyCharm还具备自动代码补全、语法高亮、代码导航、版本控制、数据库工具等一系列高级功能,以及可扩展的插件系统,使得Python开发变得更加便捷和高效。:在单步执行时,在函数内遇到子函数时不会进入子函数内单步执行,而是将子函数整个执行完再停止,也就是把子函数整个作为一步。: 当单步执行到子函数内时,用step out就可以执行完子函数余下部分,并返回到上一层函数。:单步执行,遇到子函数就进入并且继续单步执行(简而言之,进入子函数);敲完后,右键文件,点击Run mypy01,就可以运行代码了。
2024-09-06 17:42:35 988
原创 《Python 原生爬虫教程》数据可视化
爬虫只是我们获取数据的第一步,我们最终的目的是要让数据服务于人类,因此,我们需要Numpy,Pandas 等数据分析工具分析数据,然后使用 matplotlib 工具来绘制可视化图形,从而让我们的数据更加生动,更加被一般用户所理解和使用。
2024-09-05 11:38:46 761
原创 10个高效的Python爬虫框架,你用过几个?
小型爬虫需求,requests库+bs4库就能解决;大型爬虫数据,尤其涉及异步抓取、内容管理及后续扩展等功能时,就需要用到爬虫框架了。
2024-09-04 11:44:52 1190
原创 【python爬虫实战】天气数据爬取+数据可视化(附完整代码)
在华北地区的时候,第一个城市在第三个tr标签,城市的名字在tr标签下的第一个td标签,但是在这几个地区,第一个城市在第三个tr标签,而城市的名字在tr标签下的第二个td标签。然后是港澳台,通过查看源代码可以看出来,港澳台里面是不规范的html代码,即有开始标签没有结束标签,如果按照上面的方式写,得到的是不正确的。# 如果是第0个tr标签,城市就是第二个td标签,其余得都选第0个td标签。# 如果是第0个tr标签,城市就是第二个td标签,其余得都选第0个td标签。chart=Bar("中国气温排行榜")
2024-09-03 16:17:51 1378
原创 【python爬虫入门,10分钟就够了,这可能是我见过最简单的基础教学】
lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。ps:1、登录窗口,文件上传等,信息都会被附加到请求体内 2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post。Response:服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图片,js,css等)
2024-09-02 14:22:21 1901
原创 【安装python详细步骤(超详细图文教程)_python安装】
请勾选Add Python 3.8 to PATH,这样可以将 Python 命令工具所在目录添加到系统 Path 环境变量中,这样安装之后,就不需要单独配置环境变量,很省事。此外,还有大量的第三方库可供使用,例如用于科学计算的NumPy、SciPy和matplotlib,以及用于数据分析和处理的pandas等。点击图片中的“Download”按钮,然后选择需要下载的版本,最后在跳转的页面中,选择你自己电脑需要的安装包。选择自定义安装,将 Python 安装到常用的文件夹,避免安装在C盘即可。
2024-08-30 17:12:47 1022
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人