![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
m1f2c3
这个作者很懒,什么都没留下…
展开
-
爬取小说
1、将html文件中的内容解析成小说,并保存 # -*- coding: utf-8 -*- import urllib3 from bs4 import BeautifulSoup import requests import re class getnovel: def __init__(self, url): self.url = url def d...原创 2019-10-02 23:54:44 · 544 阅读 · 0 评论 -
爬虫时遇到的编码问题
请谨慎观看,可能会有很多错误 目前我认为最稳妥的编码解决方法 1、首先检查网页源码,了解网页源码的编码方式 如果网页源码中没有明确表明数据的编码方式,就直接用tcpdump截取数据,一点点对照着看,找出编码方式 2、在已知编码方式的前提下使用requests和beautifulsoup req = requests.get(url) soup = BeautifulSoup(req.conte...原创 2019-10-08 00:10:41 · 547 阅读 · 0 评论