风变编程_爬虫精进
风变编程_爬虫精进笔记
https://www.pypypy.cn/#/apps/2/home
KeepChasing1
这个作者很懒,什么都没留下…
展开
-
爬虫处理数据流程图
爬虫处理数据流程图原创 2020-05-27 10:00:08 · 5536 阅读 · 3 评论 -
13 Scrapy框架介绍
# Author:Nimo_Ding'''练习 - 当当图书榜单爬虫前两关,我们学习了能提升爬虫速度的进阶知识——协程,并且通过项目实操,将协程运用于抓取薄荷网的食物数据。可能你在体验开发一个爬虫项目的完整流程时,会有这样的感觉:原来要完成一个完整的爬虫程序需要做这么多琐碎的工作。比如,要导入不同功能的模块,还要编写各种爬取流程的代码。而且根据不同的项目,每次要编写的代码也不同。不知道你会不会有这样的想法:能不能有一个现成的爬虫模板,让我们拿来就能套用,就像PPT模板一样。我们不需要管爬虫的.转载 2020-07-06 11:21:17 · 217 阅读 · 0 评论 -
MonkeyPatchWarning
# 报错:MonkeyPatchWarning: Monkey-patching ssl after ssl has already been imported may lead to errors, including RecursionError on Python 3.6. It may also silently lead to incorrect behaviour on Python 3.7. Please monkey-patch earlier. See https://github.原创 2020-07-05 20:02:37 · 349 阅读 · 0 评论 -
SSL: CERTIFICATE_VERIFY_FAILED
报错urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)>1解...转载 2020-07-05 19:46:14 · 426 阅读 · 0 评论 -
10 爬取电影下载链接并发送邮件
# Author:Nimo_Ding'''练习介绍:在第3关的一个课后练习里,我们爬取了指定电影的下载链接;在第6关的一个课后练习里,我们存储了豆瓣TOP250的榜单信息。现在,我们完善这个程序,每周五在存储的榜单中,随机抽三部电影,然后去爬取这三部电影的下载链接,并把链接的结果发送到邮箱。'''import requests,random,csv,smtplib,schedule,timefrom bs4 import BeautifulSoupfrom urllib.request .原创 2020-07-05 14:14:31 · 766 阅读 · 0 评论 -
10 爬取天气并发送邮箱
# Author:Nimo_Ding'''目标:自动爬取每日的天气,并定时把天气数据和穿衣提示发送到你的邮箱smtplib库主要负责的是横向的连接服务器、登录、发送和退出;email库主要负责的是邮件主题和正文。'''import requestsimport scheduleimport timefrom bs4 import BeautifulSoupimport smtplib # smtplib是内置库,不需要用pip3安装from email.mime.text i.原创 2020-07-05 11:54:57 · 1062 阅读 · 0 评论 -
09 自动发表博客评论
# Author:Nimo_Ding'''要求:手动注册博客注册蜘蛛侠利用代码登录博客人人都是蜘蛛侠。在文章《未来已来(三)——同九义何汝秀》中,发表一个评论,这个评论中必须要带有“selenium”这个词。https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php'''import timefrom selenium import webdriverdriver = webdriver.Chrome().原创 2020-07-04 23:32:59 · 280 阅读 · 0 评论 -
09 自动操作浏览器
# Author:Nimo_Ding'''目标:自动操作浏览器。.send_keys() # 模拟按键输入,自动填写表单.click() # 点击元素.clear() # 清除元素内容,如果空格中已经输入了'张三',你想改成'吴峰',就需要先用.clear()清除,再写新文字。'''import timefrom selenium import webdriverdriver = webdriver.Chrome()url='https://localprod.p.原创 2020-07-04 22:55:56 · 198 阅读 · 0 评论 -
09 selenium解析和提取数据的方法
# Author:Nimo_Ding'''selenium 是真实的模拟人操作浏览器,需要等待网页缓冲的时间.在爬取大量数据时就会比较慢,这是它的缺点。通常在爬虫项目中,selenium都是用在其他方法无法解决或很难解决问题的时候才会用到。学习文档:https://seleniumhq.github.io/selenium/docs/api/py/api.html https://selenium-python-zh.readthedocs.io/en/latest/静态网页.原创 2020-07-04 22:42:33 · 2155 阅读 · 0 评论 -
08 自制简单翻译词典
# Author:Nimo_Ding'''目标:自己制作一个翻译词典'''import requests,jsonheaders = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}def translation(): url = 'http://fan.原创 2020-07-04 10:52:05 · 397 阅读 · 0 评论 -
08 练习小说推荐
# Author:Nimo_Ding'''目标:借助cookies的相关知识,使用Python登录小说网站,用代码的形式对热榜上的小说进行推荐。网站地址:https://www.xslou.com/小说楼的排行榜页:https://www.xslou.com/top/allvisit_1/'''import requestsfrom bs4 import BeautifulSoupheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.原创 2020-07-04 10:34:57 · 204 阅读 · 0 评论 -
08 登录博客发表评论_优化版本
# Author:Nimo_Ding'''最终优化:1、登录的时候自动调用cookies,就不用每次输入用户名和密码了。2、如果程序能读取到cookies,就自动登录发表评论,如果读取不到,就重新输用户名密码登录后再评论。cookies转化成字典的方法:requests.utils.dict_from_cookoejar(cj)cj:从中提取cookie的CookieJar对象返回类型:字典json模块使用方法:json.dumps() # 将Python对象编码成Json字符串.原创 2020-07-03 23:18:27 · 168 阅读 · 0 评论 -
06 csv文件的写入和读取
'''用csv格式存储数据读写比较方便,易于实现,文件也会比Excel文件小。但是csv文件缺少Excel文件的很多功能:比如不能嵌入图像和图表,不能生成公式。file=open('test.csv','a+')#创建test.csv文件,以追加的读写模式file.write('美国队长,钢铁侠,蜘蛛侠')#写入test.csv文件file.close()#关闭文件''''''open函数: r读,r只读;rb二进制只读;r+读写;rb+二进制读写; w写,w只..原创 2020-07-03 18:39:43 · 610 阅读 · 0 评论 -
06 Excel文件的写入和读取
# Author:Nimo_Ding'''excel文件写入步骤: 创建工作簿-用openpyxl.Workbook()函数创建workbook对象 获取工作表-workbook对象的active属性 操作单元格-单元格sheet['A1'];一行append() 保存工作簿-save()excel文件读取工作簿: 打开工作簿-用openpyxl.load_workbook()函数创建workbook对象 获取工作表-workbook对象的键,wb.原创 2020-07-03 18:39:04 · 260 阅读 · 0 评论 -
05 爬取周杰伦所有歌单
# Author:Nimo_Ding'''目标:爬取周杰伦所有歌单'''import requestsurl = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'headers = { 'origin':'https://y.qq.com', # 请求来源,本案例中其实是不需要加这个参数的,只是为了演示 'referer':'https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s..原创 2020-07-03 14:42:57 · 575 阅读 · 0 评论 -
05 爬取七里香歌曲最新评论
# Author:Nimo_Ding'''目标:获取七里香歌曲的所有最新评论。先了解什么是"带参数请求数据":Request URL:'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?g_tk_new_20200303=5381&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=GB23.原创 2020-07-03 14:21:20 · 212 阅读 · 0 评论 -
04 爬取周杰伦首页歌单
# Author:Nimo_Ding'''目标:爬取周杰伦的歌曲清单'''import requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}url='https.原创 2020-07-03 13:42:56 · 457 阅读 · 0 评论 -
03 练习一键下载电影
# Author:Nimo_Ding'''我们想要实现这样的功能:用户输入喜欢的电影名字,程序即可在电影天堂https://www.ygdy8.com爬取电影所对应的下载链接,并将下载链接打印出来。'''import requestsfrom bs4 import BeautifulSoupfrom urllib.request import quote# quote()函数,可以帮我们把内容转为标准的url格式,作为网址的一部分打开# 输入变形金刚的话,就会转成这样:%B1%E4%.原创 2020-07-03 10:57:17 · 515 阅读 · 0 评论 -
03 练习爬取豆瓣电影top250
# Author:Nimo_Ding'''问题需求:把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来https://movie.douban.com/top250?start=0&filter='''import requests# 引用BeautifulSoup库from bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Macintosh.原创 2020-07-03 10:41:04 · 938 阅读 · 0 评论 -
03 爬取菜谱清单
# Author:Nimo_Ding'''分析:我们要爬取热门菜谱清单,内含:菜名、原材料、详细烹饪流程的URL地址:http://www.xiachufang.com/explore/在进行爬取之前,我们先去看看它的robots协议:http://www.xiachufang.com/robots.txt你会发现:我们要爬取的/explore/不在禁止爬取的列表内,但如果你要爬取/recipe/服务器就会不欢迎。在网页里,recipe是每一道菜的详情页面,记录了这道菜的做法。如果你真要.原创 2020-07-03 09:28:59 · 353 阅读 · 0 评论 -
02 练习爬取网上书店
# Author:Nimo_Ding'''第一个练习:题目要求:你需要爬取的是网上书店Books to Scrape中所有书的分类类型,并且将它们打印出来。它的位置就在网页的左侧,如:Travel,Mystery,Historical Fiction…等。http://books.toscrape.com/'''import requestsfrom bs4 import BeautifulSouphtml=requests.get('http://books.toscrape.c.原创 2020-07-02 23:26:24 · 2002 阅读 · 0 评论 -
02 练习爬取博客评论
# Author:Nimo_Ding'''爬取博客【人人都是蜘蛛侠】中,《未来已来(四)——Python学习进阶图谱》文章的默认评论页,并且打印。https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/'''import requestsfrom bs4 import BeautifulSouphtml=requests.get('https://wordpress-edu-3autu.原创 2020-07-02 22:47:25 · 869 阅读 · 0 评论 -
02 BeautifulSoup
# Author:Nimo_Ding'''爬虫四个步骤:获取数据 - requests库完成解析数据 - BeautifulSoup网页解析库完成提取数据 - BeautifulSoup网页解析库完成保存数据BeautifulSoup库目前已经进阶到第4版了安装:pip3 install BeautifulSoup4'''# 调用requests库import requests# 调用BeautifulSoup库from bs4 import BeautifulSoup.原创 2020-07-02 22:30:56 · 160 阅读 · 0 评论 -
01 HTML
# Author:Nimo_Ding'''当我们在Chrome浏览器上,拿着url向服务器发出请求的时候,服务返回的是一个带有HTML文档的数据包,经过浏览器解析,网页才能在窗口上正常呈现。但是Python请求了远程服务器后,拿到的内容会是一份HTML文档什么是HTML:HTML是用来描述网页的一种语言,英文全称是Hyper Text Markup Language,也叫超文本标记语言。基本格式:<!DOCTYPE html><html> <h.原创 2020-07-02 20:10:02 · 367 阅读 · 0 评论 -
00 练习文章图片音频下载
# Author:Nimo_Ding'''练习要求:获取文章《HTTP状态响应码》全部内容,并且打印出全文内容。'''import requestsres=requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md')print(res.text)code=open(.原创 2020-07-02 19:18:16 · 165 阅读 · 0 评论 -
HTTP响应状态码
https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md# HTTP响应状态码## 1xx:临时响应#### 表示临时响应并需要请求者继续执行操作的状态代码。100 **继续**请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分,正在等待其余部分。 101 **切换协议*.原创 2020-07-02 19:06:41 · 124 阅读 · 0 评论 -
00 初识爬虫
# Author:Nimo_Ding'''爬虫的工作原理:第0步:获取数据。 爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。第1步:解析数据。 爬虫程序会把服务器返回的数据解析成我们能读懂的格式。第2步:提取数据。 爬虫程序再从中提取出我们需要的数据。第3步:储存数据。 爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。这就是爬虫的工作原理啦,无论之后的学习内容怎样变化,其核心都是爬虫原理。'''# 体验爬虫# 获取...原创 2020-07-02 19:02:57 · 219 阅读 · 0 评论