-
版 本:anaconda5.2.0(python3.6.5)
-
编辑器:pycharm
第三方库:
-
requests
-
parsel
进行网页分析
目标站点:
-
开发者工具的使用
-
network
-
element
爬取一章小说
-
requests库的使用(请求网页数据)
-
对请求网页数据步骤进行封装
-
css选择器的使用(解析网页数据)
-
操作文件(数据持久化)
-- coding: utf-8 --
import requests
import parsel
“”“爬取一章小说”“”
请求网页数据
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36’
}
response = requests.get(‘http://www.shuquge.com/txt/8659/2324752.html’, headers=headers)
response.encoding = response.apparent_encoding
html = response.text
print(html)
从网页中提取内容
sel = parsel.Selector(html)
title = sel.css(‘.content h1::text’).extract_first()
contents = sel.css(‘#content::text’).extract()
contents2 = []
for content in contents:
contents2.append(content.strip())
print(contents)
print(contents2)
print(“\n”.join(contents2))
将内容写入文本
with open(title+‘.txt’, mode=‘w’, encoding=‘utf-8’) as f:
f.write(“\n”.join(contents2))
爬取一本小说
- 对爬虫进行重构
需要爬取很多章小说,最笨的方法是直接使用 for 循环。
- 爬取索引页
需要爬取所有的章节,只要获取每一章的网址就行了。
import requests
import parsel
“”“获取网页源代码”“”
模拟浏览器发送请求
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36’
}
def download_one_chapter(target_url):
需要请求的网址
target_url = ‘http://www.shuquge.com/txt/8659/2324753.html’
response 服务返回的内容 对象
pycharm ctrl+鼠标左键
response = requests.get(target_url, headers=headers)
解码 万能解码
response.encoding = response.apparent_encoding
文字方法 获取网页文字内容
print(response.text)
字符串
html = response.text
“”“从网页源代码里面拿到信息”“”
使用parsel 把字符串变成对象
sel = parsel.Selector(html)
scrapy
extract 提取标签的内容
伪类选择器(选择属性) css选择器(选择标签)
提取第一个内容
title = sel.css(‘.content h1::text’).extract_first()
提取所有的内容
contents = sel.css(‘#content::text’).extract()
print(title)
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
工具都帮大家整理好了,安装就可直接上手!
三、最新Python学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、Python视频合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
六、面试宝典
简历模板
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!