5# 导入 urllib2 用于执行核心爬虫
6import urllib2
7
8# 导入 UserAgent 用于生成 UA
9from fake_useragent import UserAgent
2、执行网页请求函数
1# 执行网页请求
2def req_url(self,full_url):
3 # 构造请求头
4 headers = {
5 # 随机生成一个 User-Agent
6 ‘User-Agent’: self.user_agent.random,
7 # 设置请求格式
8 “Accept”: “application/json, text/plain, /”,
9 # 允许请求语言
10 “Accept-Language”: “zh-CN,zh;q=0.8”
11 }
12 # 请求参数
13 params = {
14 ‘start’:self.begin,
15 ‘tags’:self.name
16 }
17 # 对中文参数编码
18 params = urllib.urlencode(params)
19 # 构造 Request 请求对象
20 request = urllib2.Request(headers=headers, url=full_url,data=params)
21 # 执行请求
22 response = urllib2.urlopen(request)
23 return response.read()
3、保存文件
1# 将爬取下来的 html 源代码保存
2def save_doc(self,html_doc, file_name):
3 print “开始保存文件:”, file_name
4 with open(file_name, ‘w’) as f:
5 f.write(html_doc)
6 print “完成文件:”, file_name, " 保存"
4、组装执行爬虫
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)
识点,真正体系化!**
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)