![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
文章平均质量分 94
Tokiu123
空余时间可接小单~
有意联系V:CD230218
展开
-
【网络爬虫篇】数据采集技术综合项目实战3(网络爬虫+数据预处理+数据可视化)附带详细步骤说明,干货满满
本文是针对B站上某一部电影的弹幕数据进行采集,并通过采集到的数据进行预处理、可视化操作,挖掘出用户每周观看电影的习惯以及用户的评论特点、电影主题。原创 2024-04-13 23:25:38 · 2916 阅读 · 11 评论 -
【网络爬虫篇】数据采集技术综合项目实战2(协程式网络爬虫+数据预处理+数据可视化)附带详细步骤说明,干货满满
本文是针对京东商品“苹果15”的评论数据采集,包括好评、差评、中评以及不同的评论对应的用户名、设备颜色、设备内存大小、版本号、评论发布时间等字段,共3000条以上的评论数目进行数据预处理并进行可视化。挖掘该产品受客户喜爱的特性。原创 2024-04-06 14:52:45 · 2317 阅读 · 1 评论 -
【网络爬虫篇】数据采集技术综合项目实战1(网络爬虫+数据预处理+数据可视化)
本文主要是针对我国农业网之水稻详情的数据采集,并通过数据预处理、数据可视化技术挖掘出我国对水稻贡献最多的城市、企业。原创 2024-03-24 17:04:13 · 2767 阅读 · 1 评论 -
【网络爬虫篇】使用Scrapy爬取去哪儿网游记数据并保存(超详细)
4.切换到项目qunar的根目录,输入命令:scrapy genspider qunarspider https://travel.qunar.com/travelbook/list.htm?结论:观察得出,此网页为静态网页,可直接利用正则表达式、Xpath等解析方式通过返回源代码直接获取相关信息。结论:观察可得到,当前网页以page进行分页,且每一个li标签存储着每一篇游记的相关信息。3.创建好后如下图所示,表示爬虫基本框架已经搭建完毕,即可写入脚本以及相应的爬虫规则。注意:需要完整源代码请私聊博主哦~原创 2024-03-19 20:50:39 · 1110 阅读 · 3 评论 -
【网络爬虫篇】多线程数据采集爬取豆瓣top250电影榜
7.定义run方法,这里首先创建一个线程任务列表,再将获取网址队列作为任务参数放置任务列表(1个获取网址队列线程)中,再通过循环9次,创建9个解析网页源代码获取内容的多线程,最后创建一个保存json文件线程;4.使用网址队列的get()方法将队列中的网址逐个取出并发起HTTP请求,并进行源代码的提取,所以使用xpath来对目标信息进行提取,再将所采集的内容如步骤3放入内容队列。5.当所有信息提取完毕并且存入内容队列时,使用网址队列的task_done()方法,发出任务已完成信号。原创 2024-03-16 11:40:23 · 874 阅读 · 0 评论 -
【网络爬虫篇】使用Selenium实现黑马头条滑块自动登陆
本文章主要是使用简单的js操作以及相关的滑动算法和Selenium的相关操作针实现对“黑马头条”的滑块的自动登录原创 2024-03-14 15:02:05 · 570 阅读 · 1 评论