![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫们
文章平均质量分 73
姜枫渔火
这个作者很懒,什么都没留下…
展开
-
QQ音乐爬虫之放弃的路
QQ 音乐网页端爬虫之心酸历程。。原创 2020-04-19 17:24:52 · 5997 阅读 · 17 评论 -
面向对象,国药监化妆品许可证爬取
面向函数——>面向对象;只涉及列表页,详情页没有涉及;所以只要一个类:CFDA,就够了。/20180225__author__ = '姜枫渔火'import requests, time, randomfrom fake_useragent import UserAgentclass CFDA(): def __init__(self): self.u原创 2018-02-27 22:13:36 · 1309 阅读 · 0 评论 -
利用post-data来构造信息抓取艺龙酒店
在post请求类型中,有一种利用formdata来进行翻页、搜索的方法,以艺龙为例。/20180112其实,还可以筛选酒店类型:如家,汉庭啊之类的,都在data中,方法都是一样的。/20180115# coding: utf-8__author__ ='姜枫渔火'import requests, re, time, random, pandasfrom fake_useragent impo...原创 2018-01-16 00:56:25 · 1800 阅读 · 5 评论 -
复习bs4,爬去腾讯招聘信息
复习一下另一种提取方式:Python根据xpath造的轮子,美味汤。/20170110复习findAll和select两种提取方法。/20170110# coding: utf-8__author__ = '姜枫渔火'import requestsfrom bs4 import BeautifulSoupimport jsonimport sysfrom fake_userag原创 2018-01-16 00:37:10 · 377 阅读 · 0 评论 -
利用pymysql爬虫后导入数据库
别总存本地了,爬书内容太大了,存进数据库吧。数据库:MySQL5.5.29;可视化工具:navicat fo mysql。/20180102__author__ = '姜枫渔火'import requestsimport reimport pymysqlconn = pymysql.connect( host = 'localhost', port = 3306,原创 2018-01-02 15:57:49 · 3042 阅读 · 0 评论 -
根据爬虫和tornado搭建百度音乐网站
根据爬虫和tornado搭建百度音乐网站。/20171225测试:from tornado import web, httpserver, ioloop# 逻辑处理模块class MainPageHandler(web.RequestHandler): def get(self, *args, **kwargs): # self.write('我的第一个简陋...原创 2017-12-25 14:43:15 · 476 阅读 · 1 评论 -
爬去百度音乐的歌曲,突破不能点播的限制,将其下载。
百度音乐因为限制有些歌曲不能点播,譬如上图的所有歌曲……但其实它们都在百度里隐藏着,但是我们可以根据其他能点播的歌曲,如林志炫的“单身情歌”,找到规律,从而下载下来。下面说下整体思路:1.通过在搜索框里输入“林志炫”得到其歌单界面,点击“单身情歌”的播放按钮会跳转到新页面;2.在新页面里的network里寻找media的mp3的url,可以发送get请求返回二进制,下载到本地,...原创 2017-12-22 18:53:51 · 463 阅读 · 0 评论 -
爬取改版后的新浪微博粉丝评论,利用pandas存储。
模拟登录,抓取改版之后的新浪微博粉丝:昵称,头像,ID,评论。初次利用了pandas写入文件。# coding: utf-8from fake_useragent import UserAgentimport reimport requestsimport pandasimport timeimport randomdef get_one_page(url): h原创 2017-12-18 22:40:33 · 2317 阅读 · 0 评论 -
校花网爬图片,存到本地。
总的来说,就是将图片转换成二进制,再存下来。/20171219import requestsimport refrom multiprocessing import Pooldef getpage(url): response = requests.get(url) html = response.text return htmldef prase(html原创 2017-12-20 17:02:32 · 787 阅读 · 0 评论 -
初步运用多进程,利用正则表达式,爬取猫眼电影top100排行榜,储存到本地
爬去猫眼top100排行榜电影的相关信息:# 代码多进程部分在juypter nootebook上,why?# py3自带IDE和pycharm均能运行……import reimport requestsfrom requests.exceptions import RequestExceptionimport jsonfrom fake_useragent import Use原创 2017-12-15 19:47:59 · 510 阅读 · 0 评论