写在前面
这两天总算上完了嵩天教授爬虫课(B站链接、MOOC链接),另外在2020/4/28日之前完成MOOC课程的4个小考试(每个考试10个简单的单选题)还可以获得MOOC证书,因而顺手完成了。
此外,就是开始消化之前拉勾教育活动时买的《52讲轻松搞定网络爬虫》,讲师是崔庆才老师,这个课还在连载中,目前学下来有几个值得推荐的点:
- 拉勾新用户1元购(不是广告,就不给链接了,感兴趣自己查)
- 知识点很细,前几天快速学习遗漏的知识点得到大量补充
- 提供自制网页供实践案例爬取,减少了爬取公开网站可能出现的各种变化
学习笔记
cookie和session
个人理解,cookie(位于客户端)和session(位于服务器)共同协作,在一定程度上可以维持一个登陆状态,可以将一部分内容缓存,提升使用体验。
cookie通过Max Age和Expires控制有效时间,但是cookie失效session不一定消失,因为HTTP的一个性质——无状态(即服务器不知道客户端的状态),可以通过定期清理的方式节省空间。
因而,在这二者上有很多操作空间,可以用于爬虫。
代理
当访问规模过大、频率过高时,可能会禁访,代理就是为了解决这个问题。
Ajax
一个在页面不被全部刷新的情况下更新内容的技术。
Ajax有特殊的请求类型xhr,可用chrome筛选出。
对于含token等加密参数的情况(url无规律、有时效性),通常通过selenium模拟浏览器行为。
selenium相关
安装很简单,pip即可。
还需要根据自己chrome的版本下载chromedriver,然后复制到python.exe安装位置,并加入环境变量。
一个简单实例:
from selenium import webdriver
#创建一个实例
browser = webdriver.Chrome()
#转到百度官网
browser.get("htttps://www.baidu.com")
#退出浏览器
browser.quit()
丁香园爬取实例
import requests, json, re, random,time
from bs4 import BeautifulSoup
from selenium import webdriver
from lxml import etree
ChromeDriver = "C:\ProgramData\Anaconda3\chromedriver.exe"
#手动指定chromedriver位置
browser = webdriver.Chrome(executable_path=ChromeDriver)
class getUrl(object):
"""docstring for getUrl"""
def __init__(self):
self.headers={
"Connection": "keep-alive",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 "
"(KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Accept-Encoding": "gzip, deflate, sdch",
"Accept-Language": "zh-CN,zh;q=0.8"
};
def run(self):
browser.get('https://auth.dxy.cn/accounts/login?service=http://www.dxy.cn/bbs/index.html')
time.sleep(1)
#切换账号密码登录表单
js1 = 'document.querySelector("#j_loginTab1").style.display="none";'
browser.execute_script(js1)
time.sleep(1)
js2 = 'document.querySelector("#j_loginTab2").style.display="block";'
browser.execute_script(js2)
#输入账号密码
input_name = browser.find_element_by_name('username')
input_name.clear()
input_name.send_keys('*')# 这里为自己账号和密码
input_pass = browser.find_element_by_name('password')
input_pass.clear()
input_pass.send_keys('*')
browser.find_element_by_xpath('//*[@class="form__button"]/button').click()
#此步骤应该有验证码,先跳过
time.sleep(10)
cookie = browser.get_cookies()
cookie_dict = {i['name']:i['value'] for i in cookie}
#转到抓取页面
browser.get("http://www.dxy.cn/bbs/thread/626626#626626");
html = browser.page_source
tree = etree.HTML(html)
user = tree.xpath('//div[@id="postcontainer"]//div[@class="auth"]/a/text()')
content = tree.xpath('//td[@class="postbody"]')
for i in range(0,len(user)):
result = user[i].strip()+":"+content[i].xpath('string(.)').strip()
#写入文件
dir_file = open("DXY_records.txt",'a', encoding="utf-8")
dir_file.write(result+"\n")
dir_file.write('*' * 80+"\n")
dir_file.close()
print('*' * 5 +"抓取结束"+'*' * 5)
if __name__ == '__main__':
geturl = getUrl()
geturl.run()
以上代码还是有部分问题:
- 无法解决验证码(常用解决方法:收费人工click、写一个CV程序)
- 其实不登陆也可以爬取结果
不过,里面的思路还是值得深入学习。