爬虫
爬虫学习分享
MMddyhc
河北师范大学 地理信息科学专业 GISer
展开
-
Python爬取链家租房信息
Python爬取链家租房信息兴趣点:继续练手,今天以石家庄市开发区为例,爬取所有链家在租房屋信息这种静态网页我已经练了很多了,已经驾轻就熟了目标网站:传送门:https://sjz.lianjia.com/zufang/kaifaqu1/爬虫大体思路与方法:大体思路:(1)找到翻页的规律(链家是静态网页,直接看浏览器上方显示的链接就能找到规律)(2)获取我们想要的出租房的信息包括房源、面积、具体地址等,整理到列表中(3)存储到本地方法:(1)getHTMLText(url):页面获取原创 2020-10-22 15:06:14 · 1487 阅读 · 5 评论 -
Python爬取网易云音乐评论
Python爬取网易云音乐评论兴趣点:这个网易云音乐的评论我早就想爬了,可惜技术不行,研究了两天的时间我终于用最简单的方法实现了网易云音乐评论的爬取,我以毛不易的《像我这样的人》为例来介绍一下爬取网站:虚假的爬取网站:https://music.163.com/#/song?id=569213220这个是打开歌曲《像我这样的人》的页面,由于页面是动态加载的,评论信息都保存在json文件里,无法直接爬取,但我们可以想办法看一下:(1)按F12进入开发者工具,刷新一下,点几下翻页,你会发现多了好多原创 2020-10-21 15:49:12 · 1662 阅读 · 5 评论 -
Python爬取人民网文章标题
Python爬取人民网文章标题兴趣点:还是为了练手,开始想爬人民网主页的所有文章的,但是发现不同板块的页面结构不一样,有的页面还是论坛???我人晕了,最后改弄词云了,无奈╮(╯▽╰)╭爬取网址:传送门:http://www.people.com.cn/爬虫大体思路和方法:大体思路:(1)这个页面相对简单,获取页面标签里的文本和链接就不说了(2)利用jieba库的analyse自动分析方法拆分分析文本(3)利用Wordcloud的方法实现词云方法:(1)页面获取方法:getHTMLTex原创 2020-10-20 08:24:52 · 1790 阅读 · 2 评论 -
Python爬取猫眼电影TOP100榜
Python爬取猫眼电影TOP100榜兴趣点:这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈!爬取网址:传送门:https://maoyan.com/board/4爬虫大体思路及方法:大体思路:(1)TOP100榜共10页,每页10部电影,他们的文本和电影专页链接就是我们的目标(2)我们先把这10页网页的URL链接获取出来,放到一个列表里(3)利用循环读取每个网页中的每个电影的相关信息(姓名,主演,上映时间,链接),读入一个列表原创 2020-10-17 16:29:22 · 788 阅读 · 1 评论 -
Python爬取LOL高清皮肤壁纸
Python爬取LOL高清皮肤壁纸兴趣点:这两天复习爬虫,CSDN上看到了一个爬取LOL皮肤的博客,哎这个有意思,看了一下他写的代码,感觉难度还可以,就结合着自己的理解写了一下参考博客:传送门:https://blog.csdn.net/weixin_44936889/article/details/103707406爬取网址:传送门:http://lol.52pk.com/pifu/hero/爬虫方法设计:方法:(1)页面获取方法:getHTMLText(url)(2)把所有皮肤页UR原创 2020-10-13 17:36:35 · 450 阅读 · 2 评论 -
Python爬取软科中国大学排名2020版网页
Python爬取软科中国大学排名2020版网页问题起因:复习爬虫时发现之前代码爬取的软科中国大学排名网站页面变了,原来的爬虫就不能再使用了,所以我对爬虫进行了更新,使之恢复可用状态,并增加了写入Excel表格部分目标页面:软科——中国大学排名http://www.shanghairanking.cn/rankings/bcur/2020爬虫方法设计:方法:(1)页面获取方法:getHTMLText(url)(2)页面解读方法:fillUnivList(ulist,html)(3)效果打印方原创 2020-10-12 16:06:34 · 3976 阅读 · 25 评论 -
scrapy爬虫
1.scrapy常用cmd命令:(1)scrapy startproject + 工程名:创建一个工程(2)scrapy genspider + 爬虫名 + 爬取的域名:创建一个爬虫(要先进入该目录)(3)scrapy crawl + 爬虫名:运行爬虫2.scrapy工程目录解读:(摘自慕课嵩天老师)...原创 2019-07-30 17:16:19 · 222 阅读 · 0 评论