自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 小米社区爬虫

小米社区爬虫爬虫目的:爬取小米社区圈子下各类型手机下的提案数据每个提案下的反馈数据、关联反馈和热议数据本次爬取使用工具:selenium,selenium进小米社区爬虫并不难,不需要登录,但想要获取完整的数据较困难,主要难点总结如下:selenium 模拟点击网页元素按钮受限,按钮可见才能模拟点击,如果按钮隐藏在网页上方或者在下方,selenium 模拟点击将会失败;提案页面和关联反馈页面均为Ajax动态加载,需要模拟往下滚动网页,一些元素才会显现,数据才能获取完整。但是有些手机

2021-12-10 09:55:11 2211 1

原创 四川日报爬虫

四川日报爬虫要求:爬取四川日报近一年发表的新闻#导入所需库import requestsimport timeimport reimport jsonimport pandas as pd可以去看看四川日报连续日期的新闻的链接,都是有规律可循的。d为爬取的起始日期,每一天下面有n篇新闻,需要迭代num来获取该日期发表的所有新闻。可以通过爬取的状态判断是否爬完。num=254602d = '2021-05-15'dd=20210515for i in range(30000):

2021-12-09 16:36:53 655

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除