![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python全栈
文章平均质量分 64
本专栏主要分享python爬虫技术,同时分享数据库操作、机器学习、数据可视化等方面对的技术,所有源代码均来源于实战项目,每个项目都提供了好用的、性能稳定出色的完整项目代码,帮助用户解决困惑和实际的困难。
wp_tao
wild programmer
展开
-
基于Python爬虫的城市天气数据可视化分析
本项目爬取数据的目标网站是天气网(https://www.tianqi.com),爬取的是泰安市2022年的天气数据,使用pandas进行数据处理,使用pyecharts进行绘图。先来看一下绘制的几个可视化图表。天气轮播图:温度分布图:Python 是一种跨平台的计算机编程语言,具有解释性、变异性、交互性和面向对象的特点。相比使用其他语言,使用Python编写的代码结构清晰、可读性强、易于调试和扩展。Python拥有丰富的内置库和第三方库,可以满足各种需求。原创 2024-06-21 10:10:01 · 757 阅读 · 1 评论 -
多线程爬取书趣阁小说网小说
接下来,使用requests模块向这个数据包的地址发送请求,携带请求头headers,经测试,最好再多携带一个cookie参数。定义一个downloads函数,将q队列中的章节页url逐个取出,并向url发送requests的get请求,获取到数据之后用xpath表达式解析数据,存入txt文件中。如下图所示,以书趣阁小说网的其中一篇小说《斗破之无上之境》为例,目标是爬取该小说的所有章节内容,并把内容存储到一个txt文件中。原创 2024-06-20 21:51:30 · 328 阅读 · 0 评论 -
Python采集东方财富网股票数据建立LSTM模型预测
实验结果表明,LSTM模型在预测股票价格方面展现出了卓越的性能。预测价格与实际价格高度吻合,证明了模型在捕捉股票价格变化趋势方面的有效性。同时,模型在测试数据上取得了较低的损失值和较高的准确率(以1-MAPE衡量),具体数值为模型损失0.0006和模型准确率95.7%,进一步验证了模型的稳定性和可靠性。通过本次实验,我们可以得出以下结论:LSTM模型能够充分利用历史数据中的时间序列信息,有效地预测股票价格的未来走势。原创 2024-06-06 10:07:53 · 195 阅读 · 0 评论 -
python采集汽车价格数据
本次数据采集的目标是车主之家汽车价格数据,采集的流程包括寻找数据接口、发送请求获取响应、解析数据和持久化存储,先来看一下数据情况,完整代码附后:原创 2024-05-30 12:36:39 · 714 阅读 · 0 评论 -
Python网络爬虫:Selenium--以携程酒店为例
Selenium是一个用于网站应用程序自动化的工具,它可以直接运行在浏览器中,就像真正的用户在操作一样。它相当于一个机器人,可以模拟人类在浏览器上的一些行为,比如输入文本、点击、回车等。Selenium支持多种浏览器,本文以Chrome浏览器为例。chromedriver是一个驱动Chrome浏览器的驱动程序,针对不同的浏览器有不同的driver。原创 2024-04-03 18:39:30 · 1805 阅读 · 0 评论 -
基于Python爬虫的城市二手房数据分析可视化
二手房具有价格普遍偏低、地理位置较好的优势。然而,随着城市化进程加快,二手房交易市场鱼龙混杂,如何找到合适的房源信息已成为难题。随着互联网技术的发展,人们开始通过交易网站来了解二手房信息,网络上存在大量的房源,使用Python爬虫技术从中爬取有用的数据,再进行统计和可视化分析,可以把冗杂的信息变得精简。本文旨在使用这种技术,分析上海市的二手房源数量和平均房价,从户型、面积等多个角度分析二手房市场现状,以方便购房者决策,也为政府干预房地产业提供参考。先来看一下数据的情况以及可视化图表。原创 2024-07-05 17:54:57 · 513 阅读 · 0 评论 -
pyecharts可视化案例大全(21~30)
随机生成点数据# 自定义标记点data=[opts.MarkPointItem(name="自定义标记点", coord=[x_data[2], y_data[2]], value=y_data[2])]# 自定义图形# 添加自定义坐标点return geo# 设置半径范围,0%-100%return pie# 自定义数据标签return pie。原创 2024-07-05 15:44:26 · 148 阅读 · 0 评论 -
pyecharts可视化案例大全(11~20)
line.add_yaxis('样式1',curve=0,line.add_yaxis('样式2',curve=0.5,line.add_yaxis('样式3',curve=1,原创 2024-07-05 15:14:44 · 111 阅读 · 0 评论 -
pyecharts可视化案例大全(1~10)
自定义坐标轴标签,在年份后加上`年`axislabel_opts=opts.LabelOpts(formatter='{value}年')))return bar。原创 2024-07-04 22:25:19 · 73 阅读 · 0 评论 -
基于Python爬虫的论文文献检索系统
要想快速、详细了解与所写论文相关的文献,掌握文献检索方法是重要的一环,只有选择了科学有效的检索方法,才可以快、精、准地获取大量所需要文献信息,提高检索效率。首先,需要实例化一个etree对象,将响应的内容作为参数传递到etree对象中,然后使用xpath表达式获取到文献的BibTeX格式的链接和文献的标题信息,把对应的链接和标题信息放到一个列表中。如果输入的是关键词的话,则处理前十条信息。在上图的函数中,还实现了对会议论文的booktitle的修改,实现了arxiv的论文格式中的journal内容的修改。原创 2024-06-30 21:34:19 · 597 阅读 · 0 评论 -
Python操作MySQL数据库--使用pymysql模块
【代码】Python操作MySQL数据库--使用pymysql模块。原创 2024-06-27 22:35:04 · 100 阅读 · 0 评论 -
boss直聘招聘数据爬取及可视化分析2.0
笔者在前两篇介绍boss直聘招聘数据爬取和可视化分析的博客的基础上,对代码和功能进行了完善。在数据爬取的模块,代码更加简洁易懂,且性能更加稳定;在数据可视化模块,分析角度更加多维,先来看一下可视化图表吧!原创 2024-06-27 17:45:47 · 468 阅读 · 0 评论 -
boss直聘招聘数据可视化分析
这里主要对薪水列进行处理,为方便处理,将日薪和周薪的数据删除,将带有13薪和14薪的数据也删除,计算出最低薪资、最高薪资和平均薪资三列。原创 2024-06-26 19:46:17 · 259 阅读 · 0 评论 -
selenium爬取boss直聘招聘岗位数据
再来看一下boss直聘的页面,这时需要我们已经完成了城市的选择,将岗位名称输入到搜索框中,点击搜索之后切换到第2页。这时我们将url复制。使用selenium操作浏览器打开每一个页面之后,执行JavaScript代码将滚动条逐渐滑动至最底部,然后获取当前页面源代码,获取页面源代码之后提取页面中的数据。原创 2024-06-26 15:42:32 · 289 阅读 · 0 评论 -
搜狗微信文章数据爬取可视化
这里使用pandas读取数据,读取之后先将发布时间一列转换为pandas的datetime格式,然后在利用datetime的时间访问器dt获取到年份和月份,格式化为“%Y-%m”的形式,再利用pandas的value_counts()函数对新生成的年月一列进行统计,统计的个数即为该月发表的文章的数量。按下F12召唤出浏览器开发者工具,刷新页面抓包,在network选项卡下找到第一个html文档类型的包,查看该数据包的Response,发现所需数据都在这个包中,请求头信息在Headers中。原创 2024-06-26 10:42:04 · 43 阅读 · 0 评论 -
Selenium、chromedriver安装配置
Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的点击、下拉等操作。对于一些JS动态渲染的页面来说,这种抓取方式非常有效。原创 2024-06-24 22:43:11 · 215 阅读 · 0 评论 -
Python抓取高考网图片
本次采集的目标是高考网(http://www.gaokao.com/gkpic/)的图片,实现图片自动下载。高考网主页如下图:爬取的流程包括寻找数据接口,发送请求,解析图片链接,向图片链接发送请求获取数据,最后保存数据。原创 2024-06-21 17:43:34 · 4584 阅读 · 0 评论 -
python爬取飞卢小说网免费小说
首先看一下我们需要爬取的飞卢小说网的免费小说《全民:开局邀请光头强挑战只狼》网址,如下图所示:点击第一章,按F12键打开浏览器开发者工具,再点击开发者工具左上角的小箭头,找到小说内容在网页中所在的位置,如下图所示:# 提取小说文字部分内容content = re.sub('【恭喜宿主.*', '', content).strip()接下来,回到目录页,找到章节url和标题所在的位置,如下图所示:# 获取目录页网页源代码# 提取所有章节的链接和标题links = []原创 2024-06-21 11:58:42 · 150 阅读 · 0 评论 -
scrapy爬取豆瓣书单存入MongoDB数据库
爬取的目标url是https://www.douban.com/doulist/45298673/,完整代码放在最后,使用命令。需要获取的字段有书名,评分,评论人数,作者国籍(未标明国籍的是中国),出版年。创建名为douban的爬虫,起始域名是douban.com。来创建scrapy项目,再通过命令。使用navicat新建数据库参照。MongoDB数据库的安装参照。MongoDB的添加数据参照。安装scrapy库。原创 2024-06-15 13:48:40 · 202 阅读 · 0 评论 -
Python爬取城市空气质量数据并写入mysql数据库
【代码】Python爬取城市空气质量数据并写入mysql数据库。原创 2024-06-10 13:48:58 · 113 阅读 · 0 评论 -
Python爬取城市空气质量数据
首先找到所有的tr标签,每一个tr标签下对应一天的空气质量情况,然后遍历每一个tr标签,tr标签下的每一个td标签对应的依次是日期、空气质量等级、AQI指数等数据,将数据依次提取出来,使用get_text()方法获取每一个td标签下的文本数据。这是一个get请求,在发送请求时需要携带cookie、User-Agent等参数,当然,后端服务器可能也会检测其它参数,具体需要哪些参数需要一一尝试,或者直接携带所有参数。数据的持久化保存使用的是python自带的csv库,保存数据至csv文件。原创 2024-06-07 22:49:47 · 1010 阅读 · 0 评论 -
anaconda创建虚拟环境并配置到JupyterNotebook
其中,base环境即是当前的环境,也是anaconda自带的环境,其他环境例如pssquant环境是自己创建的虚拟环境。如上图所示,在开始菜单中扎到Anaconda Prompt(Anaconda)并打开。在命令行窗口中输入命令。接下来,再运行JupyerNotebook的时候,选择内核时就会出现test啦!在test虚拟环境下输入命令。安装ipykernel库。原创 2024-06-04 12:00:57 · 130 阅读 · 0 评论 -
pyinstaller将py文件打包成exe
python文件需要在python环境中运行,也就是需要安装python解释器。有时我们自己写的python程序需要分享给自己的朋友、同事或者合作伙伴,而他们的电脑上没有python环境或者对python使用很陌生,这时候为了让对方方便地使用我们的程序,需要将其打包成exe文件。运行结束之后,在PyInstaller文件夹下的dist文件下就可以看到science.exe文件了,双击即可使用。原创 2024-05-31 14:12:27 · 100 阅读 · 0 评论 -
python爬取每日天气情况
本次爬取的目标数据来源于天气网,数据所在的页面如下图所示,本次任务较为简单,按照正常操作流程操作即可,即抓包分析数据接口,发送请求获取数据,解析数据并持久化存储。原创 2024-05-30 21:11:22 · 121 阅读 · 0 评论 -
异步爬取城市天气数据
首先,观察页面,如下图所示,我们所需要的数据是日期、最高温、最低温、天气、风力风向和空气质量指数:查询其他月份或者年份的数据可以发现,页面的URL没有发生变化,说明页面是异步加载的。通过开发者工具抓包可以轻松的抓到数据所在的XHR数据包。请求头和参数的构造这里不再详细叙述,直接提供完整代码。原创 2024-05-30 19:20:51 · 23 阅读 · 0 评论 -
python爬取豆瓣电影top250
本次爬取的目标是豆瓣电影top250,网址为“https://movie.douban.com/top250?爬取的流程包括寻找数据接口,发送请求获取响应,解析数据以及持久化存储。发送请求使用的是requests,解析数据使用的是BeautifulSoup。原创 2024-05-30 13:39:01 · 40 阅读 · 0 评论 -
python采集晋江文学城小说数据
本次数据采集的目标是晋江文学城小说数据,采集的流程包括寻找数据接口、发送请求获取响应、解析数据和持久化存储,先来看一下数据情况,完整代码附后:原创 2024-05-30 12:46:16 · 1069 阅读 · 0 评论 -
城市空气质量数据爬取分析可视化
先来看一下数据情况以及可视化效果,本项目使用了pyecharts绘制了日历图、雷达图、折线图、柱状图、饼图和平行坐标系。.ipynb文件,需要在jupyternotebook环境下逐步运行。原创 2024-05-27 23:33:30 · 1112 阅读 · 0 评论 -
Python采集安居客租房信息
本次采集的需求就是获取到页面中的所有信息:将数据采集好之后保存为如下csv文件:爬取的流程不再展开分析,完整代码附后。原创 2024-05-22 10:26:58 · 80 阅读 · 0 评论 -
Python实现天气数据采集
本次天气数据采集的需求是获取每日的最高温、最低温、风力、风向、天气状况、AQI指数,如图所示,完整代码附后:本次采集的目标网址是2345天气网:上图的URL中,beijing是城市名称的缩写,54511即为城市代码,大家可以根据需要,在搜索框中输入自己想要查询的城市,搜索之后URL中就会出现所需的城市名称和代码。爬取的过程包括找到数据接口、发送请求、获取响应、解析响应和持久化存储,这个网站的分析过程比较简单。原创 2024-05-22 10:11:58 · 199 阅读 · 0 评论 -
Python实现全球技术地图信息采集
本次采集的目标网址为:http://www.globaltechmap.com/。全球技术地图(GLOBAL TECHNOLOGY MAP)网站主要提供了先进产业例如生物、能源、海洋、航空等方面的最新资讯。本次以该网站信息栏下的2024年的文章信息采集为示例,思路是先采集文章的标题信息和该文章对应的详情页的url,再通过详情页的url采集文章的发布时间、国家、正文内容和来源。原创 2024-05-17 12:00:48 · 375 阅读 · 0 评论 -
Python实现微博评论分析
本文介绍如何使用Python对微博评论数据进行分析。首先看一下评论数据的结构和字段,如下图:字段有微博的发布时间、微博内容、认证类型、所属ip地址等。原创 2024-04-16 12:21:36 · 974 阅读 · 4 评论 -
b站评论词频统计绘制词云图
在笔者之前的文章中,已经专门介绍了b站评论的爬取(),这里只对b站评论的文本数据做展示。原创 2024-04-04 22:12:34 · 723 阅读 · 0 评论 -
基于Python爬虫的豆瓣电影影评数据可视化分析
本文基于Python编程语言,以豆瓣电影《你好,李焕英》为爬取目标,完成了对影评数据的爬取和分析,并使用可视化方法展示了影评词云图、评分分数分布、评论数量与时间及分布城市的关系,通过这些数据的提取,全面挖掘了影评背后的关键信息。原创 2024-02-18 21:08:32 · 2582 阅读 · 0 评论 -
基于python爬虫的豆瓣电影数据可视化分析
本文通过爬取豆瓣网电影top250的相关数据,经过数据清洗和可视化分析,发现剧情类型电影最受观众喜爱,同时也发现评分与评价人数存在正相关关系。原创 2024-02-18 15:30:54 · 1310 阅读 · 3 评论 -
基于数据可视化的豆瓣图书榜单数据分析
本文旨在对豆瓣图书榜单TOP250进行数据分析,主要包括数据抓取、数据清洗和数据分析。一、数据抓取豆瓣图书top250的数据爬取比较简单,使用requests发送请求,使用lxml模块的xpath表达式提取数据。难点在于价格、出版年份、出版社等信息在一起,需要使用python的字符串处理方法将各种数据分离,包括作者评价人数等信息都需要做替换、去除空格等等字符串操作处理。以上就是今天要讲的内容,如需论文可以联系笔者获取。原创 2024-02-19 22:52:20 · 831 阅读 · 0 评论 -
基于Python使用爬虫从豆瓣网获取最新上映的电影信息
本文使用python爬虫技术获取豆瓣网最新上映的电影信息,网址为即将上映电影。本文使用到的python第三方库主要有requests、BeautifulSoup和matplotlib,上述第三方库的安装和使用方法笔者不再赘述,读者可自行查询相关资料,也可以联系笔者索要完整的解释、分析文档。本文的关注点是分步骤实现数据抓取和数据可视化,以及提供完整可运行的代码原创 2024-02-18 17:49:44 · 1569 阅读 · 0 评论 -
Python网络爬虫:油管视频评论
本文的思路是利用googleapiclient.discovery连接Google API服务,获取油管视频的评论。Google API可以为开发人员提供很多有用的工具和数据,使用起来也非常简单方便。注意,连接Google API服务需要设置代理,这里需要用到httplib2库,利用该库设置代理信息,然后传入googleapiclient.discovery.build方法即可。原创 2024-04-06 17:12:13 · 446 阅读 · 0 评论 -
JavaScript与HTML交互
首先创建一个html页面,并在页面中编写一段JS代码,注意,JS代码要放在标签中,然后实现html代码和JavaScript的交互。原创 2024-04-17 22:58:40 · 586 阅读 · 0 评论 -
Python网络爬虫:b站弹幕
上一篇对b站的视频评论爬取进行了探讨,这一篇是弹幕。原创 2024-04-04 19:13:07 · 1612 阅读 · 0 评论