script
文章平均质量分 55
Circle_list
用来记录学习的过程,不足之处,请大家指出.
展开
-
爬取图片
import urllib.requestfrom lxml import etreefrom urllib import parseclass Image(): def __init__(self,url): self.url = url self.headers = {"User-Agent" : "Mozilla/5.0 (Macintosh...原创 2018-03-14 20:26:01 · 339 阅读 · 0 评论 -
scrapy—下载中间键
主要目的是为了使用代理,以及模拟的useragent1:在settings.py 文件中设置DOWNLOADER_MIDDLEWARES = { 'xxx.middlewares.RandomUserAgent': 100, 'xxx.middlewares.RandomProxy': 200,}模拟的USER_AGENTSUSER_AGENTS = [ 'Mozilla/4.0...原创 2018-03-26 16:25:33 · 356 阅读 · 0 评论 -
爬去数据后存入 mongod数据库中
1:在settings.py 文件中设置# MONGODB 主机名 MONGODB_HOST = "127.0.0.1" # MONGODB 端口号 MONGODB_PORT = 27017 ...原创 2018-03-26 11:57:00 · 289 阅读 · 0 评论 -
scrapy-CrawlSpider类初试
在自己的爬虫处理文件中的应用:import scrapy# 导入CrawlSpider类和Rulefrom scrapy.spiders import CrawlSpider, Rule# 导入链接规则匹配类,用来提取符合规则的连接from scrapy.linkextractors import LinkExtractorfrom xxxxSpider.items import xxxItemc...原创 2018-03-21 16:11:55 · 263 阅读 · 0 评论 -
scrapy图片
1:在setting.py 中设置文件存放的路径IMAGES_STORE = "/home/xx/xx/xx/images/"2:在pipelines.py 文件代码import scrapy ...原创 2018-03-20 18:48:32 · 242 阅读 · 0 评论 -
爬虫初试
#-*- coding:utf-8 -*-import urllib.requestimport reclass Spider: def __init__(self,page=""): self.page = page self.switch = True def loadPage(self,page): self.p...原创 2018-03-14 15:38:36 · 241 阅读 · 0 评论 -
cooike利用登录网页
import http.cookiejarimport urllib.requestfrom urllib import parse#通过http.cookiejar.CookieJar() 构建一个cookieJar对象,用来保存cookie的值cookie = http.cookiejar.CookieJar()#通过 HTTPCookieProcessor 来处理器来构建一个...原创 2018-03-13 17:00:43 · 689 阅读 · 0 评论 -
scapy框架学习
scrapy startproject mySpider 创建爬虫scrapy crawl myspider 运行代码scrapy crawl myspider -o myspider.json 将服务器的内容生成json文件爬虫的目录结构:└── mySpider ├── mySpider │ ├── __init__.py │ ├── items.py │ ├...原创 2018-03-19 17:52:01 · 563 阅读 · 0 评论 -
proxyswitch 代理
import urllib.requestproxyswitch = True#创建一个代理对象httpproxy_handler = urllib.request.ProxyHandler({"http":"203.174.112.13:3128"})nullproxy_handler = urllib.request.ProxyHandler({})# 调用build_open...原创 2018-03-13 12:33:49 · 11044 阅读 · 0 评论 -
handler
import urllib.requesturl = "http://www.baidu.com"#构建一个HTTPHandler处理器对象,支持处理HTTP的请求http_handler = urllib.request.HTTPHandler()#构建一个自定义的opener对象,参数是构建的处理器对象opener = urllib.request.build_opener...原创 2018-03-13 12:32:24 · 196 阅读 · 0 评论 -
python_Spider 学习笔记
#-*- coding:utf-8 -*-import urllibfrom urllib import parse,requestdef writePage(html,filename):'''将获取的内容写入文件''' print("keep file....") print(type(html)) #这里的html类型是bytes 写文件的时候要设置类型是wb+ with ...原创 2018-03-12 16:28:43 · 1034 阅读 · 0 评论 -
urllib.request学习
http://tool.chinaz.com/Tools/urlencode.aspx# url编解码在线工具ZhaoLong#-*-coding:utf-8 -*-import urllib.requestimport randomurl = "http://www.baidu.com"ua_list = [ "Mozilla/5.0 (Macintosh; I...原创 2018-03-11 21:00:54 · 249 阅读 · 0 评论 -
etree的应用
import urllib.requestimport requestsimport jsonfrom lxml import etreeurl = "http://www.qiushibaike.com/8hr/page/2/"headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1;...原创 2018-03-15 17:45:35 · 1212 阅读 · 0 评论 -
django 总结
创建django项目的方法:https://www.cnblogs.com/xuancaolinxia/p/5677503.htmlmysql 安装配置https://www.2cto.com/database/201612/577717.htmlmysql -uroot -p 使用root 进入数据库show database; 查看当前的库create database test2 chars...原创 2018-04-01 19:22:47 · 277 阅读 · 0 评论