爬虫文档
第二i
python HTML javascript
展开
-
scrapy 爬虫框架怎么爬去的数据怎么生成一个json文件
scrapy crawl min_spider -o min_spider.json 说明: 我的爬虫名字为min_spider,这条命令会在当前文件夹下生成一个min_spider.json的文件 class MinSpiderSpider(scrapy.Spider): name = 'min_spider' allowed_domains = ['baidu.c...原创 2019-01-03 20:02:17 · 629 阅读 · 1 评论 -
scrapy 中的pipeleine.py文件解答
Itm pipeline 为项目管道, 当item生成时,它会自动被送到Item piplone进行处理,常用来: 1,清理HTML数据 2,验证爬取数据,检查爬取字段 3,查看并丢弃重复的内容 4,将爬取的结果保存到数据库 实现Item Pipeline很简单,只需要定义一个类并实现process_item()方法即可,启动Item Pipeline后,Item Pipeline会自动...原创 2019-01-03 20:46:31 · 166 阅读 · 0 评论 -
爬虫注意的两个HTML标签
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>before</title> <style> p:before { content:"让爬虫怎么爬取 -"; } </style&am原创 2018-12-24 14:57:51 · 708 阅读 · 0 评论 -
Python zlib模块 出错问题
import zlib s = 'asdasdfahjklfsjkldfhoidsfsfswhqefrsndfsn lfnsfg hfoshaifgsdluikfga' zlib_s = zlib.compress(s) print(zlib_s) TypeError: a bytes-like object is required, not 'str' 不知道哪里出错了, 在线急.......原创 2018-12-18 20:19:22 · 769 阅读 · 0 评论 -
爬取糗事百科的页面
import requests class QiuShiBaiKe(): def __init__(self): """ 初始化参数 """ self.url_bash = 'https://www.qiushibaike.com/imgrank/{}' self.headers = {"User-Age...原创 2018-12-18 16:23:52 · 192 阅读 · 0 评论 -
提取URL中的内容
from urllib.parse import urlparse a = urlparse('https://www.jb51.net/article/139594.htm') print(dir(a)) print(a.netloc) print(a.path) print(a.scheme) ['__add__', '__class__', '__contains__', '_...原创 2019-01-12 14:47:12 · 909 阅读 · 0 评论 -
requests 编码问题
import requests r = requests.get('http://www.baidu.com/') print(r.encoding) r.encoding = 'utf8' # print(r.text) print(r.content.decode('utf8')) # print(r.apparent_encoding) # print(r.text) 这里说明一下t...原创 2019-02-03 13:38:51 · 257 阅读 · 0 评论