爬虫
易辰_
当你的能力撑不起你的野心的时候,你就静下心来努力学习
展开
-
BeautifulSoup
BeautifulSoup一BeautifulSoup二BeautifulSoup三BeautifulSoup四BeautifulSoup五BeautifulSoup六BeautifulSoup七BeautifulSoup一from bs4 import BeautifulSoupdoc = """<html><head&...原创 2018-03-01 17:01:22 · 421 阅读 · 0 评论 -
BeautifulSoup
BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单。 安装pip3 install beautifulsoup4 name,标签名称# tag = soup.find('a')#获取第一个标签# name = tag.name #...原创 2018-05-09 20:22:40 · 824 阅读 · 0 评论 -
Scrapy安装、创建、选择器、案例
安装scrapy创建爬虫项目项目结构以及爬虫应用简介选择器安装scrapya. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录,执行 pip3 install Twisted-xx...原创 2018-05-11 16:02:32 · 377 阅读 · 0 评论 -
Scrapy---操作cookie、去重、中间件
pipelines.py手动操作cookie点赞自动操作cookie点赞去重中间件其他pipelines.pychouti.pyimport scrapyfrom scrapy.http import Requestfrom ..items import XianglongItemclass ChoutiSpider(scrapy.Spi...原创 2018-05-11 20:48:28 · 8384 阅读 · 2 评论 -
requests请求方式、参数
getpost其他请求参数get1、无参数实例import requestsret = requests.get('https://github.com/timeline.json')print(ret.text)输出如下:{"message":"Hello there, wayfaring stranger. If you’re read...原创 2018-05-07 20:14:09 · 29888 阅读 · 0 评论 -
Scrapy---代理、信号、自定义命令
添加代理https信号自定制命令添加代理方式一: import os import scrapy from scrapy.http import Request class ChoutiSpider(scrapy.Spider...原创 2018-05-14 18:47:11 · 814 阅读 · 0 评论 -
scrapy-redis
情况一:只用它的去重规则功能 配置: # ############ 连接redis 信息 ################# REDIS_HOST = '127.0.0.1' # 主机名 REDIS_PORT = 6379 ...原创 2018-05-15 18:59:23 · 471 阅读 · 0 评论