a345198433-CSDN博客

转载 QQ音乐爬虫

#今日目标**QQ音乐爬虫**今天要爬取的是QQ音乐任意歌手的所有音乐歌词，因为笔者是周杰伦的忠实粉丝，所以专门写了个爬虫来爬取他的音乐的歌词，因为他的音乐在咪咕音乐可以听，所以便没有去爬取。好了，下面直接给出代码！*代码实现*```import requestsimport csvsinger=input('你喜欢的歌手是谁？\n')u...

2019-08-07 23:09:00 495

转载 50行代码爬取微信公众号所有文章

#今日目标**50行代码爬取微信公众号所有文章**今天要爬取的是微信公众号，爬取公众号的方式常见的有两种。一是通过搜狗搜索去获取，缺点是只能获取最新的十条推送文章，今天介绍另一种通过抓包PC端微信的方式去获取公众号文章的方法，相对其他方法更加便捷。分析：我们发现每次下拉刷新文章的时候都会请求 mp.weixin.qq.com/mp/xxx公众号不让添加主页链接...

2019-08-07 22:57:00 1889

转载 scrapy之盗墓笔记三级页面爬取

#今日目标**scrapy之盗墓笔记三级页面爬取**今天要爬取的是盗墓笔记小说，由分析该小说的主要内容在三级页面里，故需要我们一一解析*代码实现*daomu.py```import scrapyfrom ..items import DaomuItemclass DaomuSpider(scrapy.Spider): ...

2019-08-04 21:10:00 1650

转载 scrapy之360图片爬取

#今日目标**scrapy之360图片爬取**今天要爬取的是360美女图片，首先分析页面得知网页是动态加载，故需要先找到网页链接规律，然后调用ImagesPipeline类实现图片爬取*代码实现*so.py ```# -*- coding: utf-8 -*-import scrapyimport jsonfrom ..items ...

2019-08-04 21:00:00 221

转载拉勾网python开发要求爬虫

#今日目标**拉勾网python开发要求爬虫**今天要爬取的是北京python开发的薪资水平，招聘要求，福利待遇以及公司的地理位置。通过实践发现除了必须携带headers之外，拉勾网对ip访问频率也是有限制的。一开始会提示 '访问过于频繁'，继续访问则会将ip拉入黑名单。不过一段时间之后会自动从黑名单中移除。针对这个策略，我们可以对请求频率进行限制，这个弊端就...

2019-08-01 23:39:00 289

转载 selenium之京东商品爬虫

#今日目标**selenium之京东商品爬虫**自动打开京东首页，并输入你要搜索的东西，进入界面进行爬取信息```from selenium import webdriverimport timeclass JdSpider(object): def __init__(self): self.browser=webd...

2019-07-30 22:54:00 212

转载多线程之小米商店APP爬虫

#今日目标**多线程之小米商店APP爬虫**爬取小米商店所有社交APP```import requestsimport timefrom threading import Threadfrom queue import Queueimport jsonclass XiaoAppSpider(object): def __i...

2019-07-30 22:49:00 190

转载腾讯招聘爬虫

#今日目标**腾讯招聘爬虫**爬取该网站技术类的职位名以及它们的要求、职责```import requestsimport jsonimport timeimport randomclass TencentSpider(object): def __init__(self): self.headers = {...

2019-07-28 21:41:00 196

转载中华人民行政部网站爬虫

#中华人民行政部网站爬虫**今日目标**爬取该网站行政数据里的县以上最新行政区代码```import requestsfrom lxml import etreeimport pymysqlimport reclass Govement(object): def __init__(self): self.one_...

2019-07-28 21:36:00 271

转载百度翻译爬虫

# 百度翻译爬虫**今日目标**百度翻译能够随意输入内容并进行翻译思路：在JS文件里面找到sign对应的m(a)函数，再用pyexecjs模块在Python中是实现```pythonimport requestsimport reimport execjsclass BaiduTranslateSpider(object): ...

2019-07-25 21:53:00 812

转载有道翻译爬虫

# 有道翻译爬虫**今日目标**有道翻译能够随意输入内容并进行翻译```pythonimport requestsimport timeimport randomfrom hashlib import md5# 获取salt sign tsdef get_salt_sign_ts(word): # ts ts = s...

2019-07-24 22:27:00 204

转载链家新房爬虫

# 链家新房爬虫**今日目标**爬取最新地区以及对应的房价```pythonimport requestsimport reimport csvclass LianjiaSpider(object): def __init__(self): self.url='https://cq.lianjia.com/ersho...

2019-07-23 22:18:00 210

转载豆瓣电影爬虫

import requestsclass DoubanSpider(object): def __init__(self): self.url='https://movie.douban.com/j/chart/top_list?' self.headers = { "Accept": '*/*', ...

2019-07-23 22:13:00 259

转载电影天堂爬虫

# 电影天堂爬虫**今日目标**爬取电影天堂前30页最新电影以及下载地址```python# 1. 打印程序执行时间# 2. 数据爬下来后做处理(字符串),定义成字典# 3. 一条龙: 获取 -> 调用解析 -> 数据处理from urllib import requestimport timeimport reimpo...

2019-07-21 22:52:00 876

a345198433的博客