自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 QQ音乐爬虫

#今日目标**QQ音乐爬虫**今天要爬取的是QQ音乐任意歌手的所有音乐歌词,因为笔者是周杰伦的忠实粉丝,所以专门写了个爬虫来爬取他的音乐的歌词,因为他的音乐在咪咕音乐可以听,所以便没有去爬取。好了,下面直接给出代码!*代码实现*```import requestsimport csvsinger=input('你喜欢的歌手是谁?\n')u...

2019-08-07 23:09:00 494

转载 50行代码爬取微信公众号所有文章

#今日目标**50行代码爬取微信公众号所有文章**今天要爬取的是微信公众号,爬取公众号的方式常见的有两种。一是通过搜狗搜索去获取,缺点是只能获取最新的十条推送文章,今天介绍另一种通过抓包PC端微信的方式去获取公众号文章的方法,相对其他方法更加便捷。分析:我们发现每次下拉刷新文章的时候都会请求 mp.weixin.qq.com/mp/xxx公众号不让添加主页链接...

2019-08-07 22:57:00 1887

转载 scrapy之盗墓笔记三级页面爬取

#今日目标**scrapy之盗墓笔记三级页面爬取**今天要爬取的是盗墓笔记小说,由分析该小说的主要内容在三级页面里,故需要我们一一解析*代码实现*daomu.py```import scrapyfrom ..items import DaomuItemclass DaomuSpider(scrapy.Spider): ...

2019-08-04 21:10:00 1644

转载 scrapy之360图片爬取

#今日目标**scrapy之360图片爬取**今天要爬取的是360美女图片,首先分析页面得知网页是动态加载,故需要先找到网页链接规律,然后调用ImagesPipeline类实现图片爬取*代码实现*so.py ```# -*- coding: utf-8 -*-import scrapyimport jsonfrom ..items ...

2019-08-04 21:00:00 220

转载 拉勾网python开发要求爬虫

#今日目标**拉勾网python开发要求爬虫**今天要爬取的是北京python开发的薪资水平,招聘要求,福利待遇以及公司的地理位置。通过实践发现除了必须携带headers之外,拉勾网对ip访问频率也是有限制的。一开始会提示 '访问过于频繁',继续访问则会将ip拉入黑名单。不过一段时间之后会自动从黑名单中移除。针对这个策略,我们可以对请求频率进行限制,这个弊端就...

2019-08-01 23:39:00 289

转载 selenium之京东商品爬虫

#今日目标**selenium之京东商品爬虫**自动打开京东首页,并输入你要搜索的东西,进入界面进行爬取信息```from selenium import webdriverimport timeclass JdSpider(object): def __init__(self): self.browser=webd...

2019-07-30 22:54:00 207

转载 多线程之小米商店APP爬虫

#今日目标**多线程之小米商店APP爬虫**爬取小米商店所有社交APP```import requestsimport timefrom threading import Threadfrom queue import Queueimport jsonclass XiaoAppSpider(object): def __i...

2019-07-30 22:49:00 189

转载 腾讯招聘爬虫

#今日目标**腾讯招聘爬虫**爬取该网站技术类的职位名以及它们的要求、职责```import requestsimport jsonimport timeimport randomclass TencentSpider(object): def __init__(self): self.headers = {...

2019-07-28 21:41:00 196

转载 中华人民行政部网站爬虫

#中华人民行政部网站爬虫**今日目标**爬取该网站行政数据里的县以上最新行政区代码```import requestsfrom lxml import etreeimport pymysqlimport reclass Govement(object): def __init__(self): self.one_...

2019-07-28 21:36:00 268

转载 百度翻译爬虫

# 百度翻译爬虫**今日目标**百度翻译能够随意输入内容并进行翻译思路:在JS文件里面找到sign对应的m(a)函数,再用pyexecjs模块在Python中是实现```pythonimport requestsimport reimport execjsclass BaiduTranslateSpider(object): ...

2019-07-25 21:53:00 812

转载 有道翻译爬虫

# 有道翻译爬虫**今日目标**有道翻译能够随意输入内容并进行翻译```pythonimport requestsimport timeimport randomfrom hashlib import md5# 获取salt sign tsdef get_salt_sign_ts(word): # ts ts = s...

2019-07-24 22:27:00 204

转载 链家新房爬虫

# 链家新房爬虫**今日目标**爬取最新地区以及对应的房价```pythonimport requestsimport reimport csvclass LianjiaSpider(object): def __init__(self): self.url='https://cq.lianjia.com/ersho...

2019-07-23 22:18:00 209

转载 豆瓣电影爬虫

import requestsclass DoubanSpider(object): def __init__(self): self.url='https://movie.douban.com/j/chart/top_list?' self.headers = { "Accept": '*/*', ...

2019-07-23 22:13:00 259

转载 电影天堂爬虫

# 电影天堂爬虫**今日目标**爬取电影天堂前30页最新电影以及下载地址```python# 1. 打印程序执行时间# 2. 数据爬下来后做处理(字符串),定义成字典# 3. 一条龙: 获取 -> 调用解析 -> 数据处理from urllib import requestimport timeimport reimpo...

2019-07-21 22:52:00 875

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除