python爬虫
文章平均质量分 87
乐亦亦乐
大道至简 知行合一
展开
-
使用Python编写获取QQ群成员昵称及号码的小工具
使用火狐浏览器进行数据的抓取,火狐浏览器对json比较友好网址:https://qun.qq.com/manage.html进入QQ群官网:登录后,点击成员管理:先随机选择一个群,抓取一下信息,找一下规律打开浏览器控制台,重新刷新网页:这是我们想要的一些信息,群昵称,qq号码。右侧返回的是我们要抓取的json数据:...原创 2020-03-19 17:14:55 · 4257 阅读 · 0 评论 -
python爬取猫眼TOP100信息
获取猫眼top100信息,写入到文档中!存入到数据库!!代码: import requestsimport reimport json# import pymysqlfrom multiprocessing import Poolfrom requests.exceptions import RequestExceptionheaders={ "User-Agent"...原创 2019-01-29 20:10:23 · 528 阅读 · 0 评论 -
python70行代码爬取链家网上万条租房数据——北京各地区租房信息
利用python爬取链家网上北京各地区的租房信息,其他地区的租房信息方法同样,只需更改一下地址即可,其余不需修改!!网址:https://bj.lianjia.com/zufang/工具:python3.6,pycharm,谷歌浏览器模块:requests,re,BeautifulSoup,Pool 我们可以看到红色方框内共有17个地区,首先先获取到这17个地区的地址。...原创 2019-01-30 11:48:19 · 3166 阅读 · 3 评论 -
python爬取网易云音乐歌单
获取网易云音乐的某个分类下的歌单的详细页地址、歌单标题、歌单播放量、歌单贡献者、歌单索引信息等。并保存到csv文件中去。用到的模块:requests、time、BeautifulSoup选择不同类别的歌曲,我们发现只是url中cat位置发生变化,因此想要爬取其他分类,只需更改url即可。这里以爬取流行类为例:观察各个页码对应的url。我们可以发现一些规律,每翻到...原创 2019-07-11 12:37:11 · 4312 阅读 · 15 评论 -
python下载网易云音乐中某个歌单中的全部音乐
以下面这个歌单为例:下载赵雷的所有音乐。其实我们只需获取这个歌单中所有音乐的id。我们查找一下歌曲的id信息:这样就找到了歌曲的id信息:但是这样是拿不到的,我们要找的源码其实是在这:接下来要做的就是用程序获取这些id:1.请求本歌单的网址https://music.163.com/playlist?id=98332770(注意:要将#号去掉)这...原创 2019-07-11 14:29:22 · 1319 阅读 · 6 评论 -
python编写--爱词霸在线翻译软件
原理:在使用金山PDF的时候发现,里面的取词翻译是使用的iCIBA(爱词霸),而且翻译的非常准确。就尝试了一下在线翻译。网址:http://fy.iciba.com/?from=wps_client_translate在左侧输入单词的时候,在开发者工具里面抓取了一下信息,发现原理非常简单。完整代码:import requestsfrom tkinter i...原创 2019-07-28 15:51:20 · 986 阅读 · 0 评论 -
几行代码爬取喜马拉雅音乐
爬取喜马拉雅音乐工具:python3,pycharm,火狐浏览器模块:requests,time,json网址:https://www.ximalaya.com/yinyue/3595841/首先进入网址,我们能看到所有的音乐列表。打开开发者工具F12,点击网络,刷新网页,我们能看到几条数据。我们点击一首音乐,观察下面的数据变化情况。发现红色部分标记的内容,点击一下。注意请求头部...原创 2018-09-26 21:34:45 · 2596 阅读 · 4 评论 -
python scrapy框架爬取豆瓣
Scrapy框架工作原理 项目采用Scrapy框架开发,该框架是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就是一个在网上随处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是定义一个入口页面,然后页面上都会有其他页面的URL,于是从...原创 2018-10-02 11:07:28 · 2271 阅读 · 1 评论 -
python爬取今日头条图片
主要内容进入今日头条https://www.toutiao.com/按F12进行数据分析,找到要爬取的内容根据获取的网页信息,编写代码一些模块的使用方法源代码展示打包成可执行程序exe1.进入今日头条,按F12找到开发者工具,选择Network(网络),本文使用谷歌浏览器为例。 2.在搜索栏里输入搜索内容(也是我们后续要爬取的图片内容),点击搜索,观察开发者工具中Net...原创 2018-08-12 11:25:29 · 1792 阅读 · 11 评论 -
python爬虫——校花网
爬取校花网图片校花网http://www.xiaohuar.com/list-1-0.html1.进入网站,我们会发现许多图片,这些图片就是我们要爬取的内容。 2.对网页进行分析,按F12打开开发着工具(本文使用谷歌浏览器)。我们发现每个图片都对应着一个路径。 3.我们访问一下img标签的src路径。正是图片的路径,能够获取到图片。因此我们需要获取网页中img标签下所有的s...原创 2018-08-15 08:50:18 · 7795 阅读 · 2 评论 -
python爬虫——爬取抽屉新热榜
爬取抽屉新热榜爬取段子抽屉网址https://dig.chouti.com/r/scoff/hot/ 爬虫的常规操作,根据需求进行分析。我们要爬取段子,也就是每条段子信息。先按F12查看一下网页,审查元素。 我们刚好找到段子信息,看看其他段子是不是也在这个位置。我们发现了25条一样的标签。每条标签下都有段子信息,刚好和这页的25条信息相对应。 提取这些信息,我们同样使...原创 2018-08-15 21:01:49 · 1230 阅读 · 0 评论 -
python爬虫——爬取汽车之家新闻
汽车之家网址:https://www.autohome.com.cn/news/ 使用的模块:requests 、BeautifulSoup 这就是我们要爬取的信息 按F12审查一下元素:找到了对应的信息。而且发现要爬取的图片都在id=auto-channel-lazyload-article的div标签下的li标签里。 li标签下的a标签就是新闻的url;image标签,s...原创 2018-08-17 20:15:12 · 2323 阅读 · 3 评论 -
python爬虫——爬取电影天堂磁力链接
爬虫:静态网页爬取工具:pycharm,python3.6,火狐浏览器模块:requests(可以使用pip install requests安装),re(不用安装)网址:http://www.ygdy8.net/html/gndy/dyzz/index.html电影天堂以火狐浏览器为例 复制影片名称,在网页源代码中查找,看能否找到。 查看页面源代码,Ctrl+f。 ...原创 2018-08-28 19:51:08 · 22136 阅读 · 1 评论 -
python爬虫——全书网
爬虫:爬取全书网,获取数据,存到数据库 工具:mysql,python3,MySQLdb 模块:requests(pip install requests),re(不需要安装) 网址:http://www.quanshuwang.com/ 分析网站结构: 查看分类,发现每个分类都有一个id(网址)。观察网址情况,发现规律!只是网址后面的数字不一样,各个网址是与分类的顺序对应的。 ...原创 2018-09-02 13:46:51 · 4085 阅读 · 1 评论 -
python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)
酷狗音乐Top500酷狗top500http://www.kugou.com/yy/rank/home/1-8888.html?from=rank进入,并按F12打开开发者工具(本文以火狐浏览器为例) 我们开始审查元素,在查看器中观察网页源代码,或者右键查看页面源代码,看源代码中是否有我们想要的信息。 我们可以在这里看到歌单信息,在ul标签下正好有22条li个标签,正好是页面中...原创 2018-08-14 15:53:02 · 8889 阅读 · 4 评论