- 博客(22)
- 收藏
- 关注
原创 测试使用
测试使用的url 是 url= httpbin.org/get返回的结果是下面:{ "args": {}, "headers": { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "Accept-Encodi...
2018-08-30 21:16:45 157
原创 运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用
数据的流程 1.scrapy 初始的内容是添加在spiders内部的 他的初始值是通过两种方式获取的 GET :scrapy的默认方式 start_urls=”xxx” POST :注释掉start_urls 添加start_requests() 函数 2.spiders 把初始值传递给scheduler, scheduler 接受请求request 并存储 3.scheduler 发送请...
2018-08-30 10:50:04 242
原创 用selenium 进行加载
#导入包from selenium import webdriver不打开浏览器加载页面的的内容tt=webdriver.ChromeOptions() tt.add_argument(‘–headless’)打开浏览器driver=webdriver.Chrome(chrome_options=tt)确定要访问的网址url=’https://www.ba...
2018-08-25 21:29:09 230
原创 用selenium 进行自动登录和首页信息和账号页
说明:本页并不是爬取数据 只是用selenium 进行网站自动登录(有验证码) 并获取一个网页所有的信息from selenium import webdriver url=’https://accounts.douban.com/login?alias=&redir=https%3A%2F%2Fwww.douban.com%2F&source=index_nav&...
2018-08-25 18:58:25 1784
原创 西刺代理用多进程爬取
运用多进程检测西刺代理中免费代理中的可用代理import requests from lxml import etree def daili(queue): #爬取5页代理 for s in range(1,5): url = ‘http://www.xicidaili.com/nn/%d‘% s headers = { ...
2018-08-24 19:49:31 415
原创 多进程批量下载图片
import requests,os,time,random from lxml import etree from urllib import request判断系统中是否存在文件夹 若不存在则创建if not os.path.exists(‘down’): os.mkdir(‘down’)爬取所有页码的所有图片def allpage_allpages(qu...
2018-08-23 23:57:59 531
转载 线程池的三种使用方法
import threadpool import timedef sayhello (a): print(“hello: “+a) time.sleep(2)def main(): global result seed=[“a”,”b”,”c”,”d”,”e”,”f”] start=time.time() task_pool=t...
2018-08-23 23:56:21 1172
原创 进程和线程 的简单书写代码和实现
导包import multiprocessing,time创建进程执行的函数def tt(var): time.sleep(2) print(var) time.sleep(2) print(var)var=’这是进程’创建一个进程if name==’main‘: p=multiprocessing.Process(...
2018-08-23 20:14:14 341
原创 妹子图片的全爬取
import requests,os,time,random from lxml import etree from urllib import request判断系统中是否存在文件夹 若不存在则创建if not os.path.exists(‘xiazai’): os.mkdir(‘xiazai’)爬取所有页码的所有图片def allpage_allpage...
2018-08-22 20:31:07 1586
原创 进程和县城的区别
在理解进程和线程概念之前首选要对并发有一定的感性认识,如果服务器同一时间内只能服务于一个客户端,其他客户端都再那里傻等的话,可见其性能的低下估计会被客户骂出翔来,因此并发编程应运而生,并发是网络编程中必须考虑的问题。实现并发的方式有多种:比如多进程、多线程、IO多路复用。多进程 进程是资源(CPU、内存等)分配的基本单位,它是程序执行时的一个实例。程序运行时系统就会创建一个进程,并为它分配资...
2018-08-20 22:33:57 1182
原创 电影url 批两下载的思路和代码
import requests,re from zhouliu.class_tt import class_tt实例化一个添加数据到数据库的类dytt_mysql=class_tt() m=0 for i in range(1,5): url=’http://www.dytt8.net/html/gndy/china/list_4_%d.html‘% i pr...
2018-08-20 08:27:50 1493
原创 单页图片爬取--并保存到本地
import requests,re,json,os from urllib import request创建文件夹if not os.path.exists(‘ttss’): os.mkdir(‘ttss’)定义路由url=’https://www.toutiao.com/a6581764599236788740/’定义hearheaders={ ...
2018-08-19 20:55:13 197
原创 正则匹配
《1》点的使用 点“ . ”是能够匹配除了换行符以外的所有的字符包括空 例子: line=’zhengze’ result=re.match(‘z.’,line) if result: print(‘成功’) else: print(‘失败’)《2》反斜杠(‘\’)的...
2018-08-19 18:31:57 151
原创 雪球--数据的爬取并存入数据库
爬取大量的数据的步骤(以雪球网——房产这栏为例)# 《1》要分析怎样才能通过程序自动生成路由# 《2》找到的规律是 变量有两个 count=10(第一页) max_id=-1 (第一页)# 《3》第二个规律从第二页开始 count都是15 max_id都是上一页数据走后一条的next_max_id# 《4》根据规律动态生成url#导入包 from urllib import...
2018-08-18 23:37:37 1374
原创 代理的使用
代理的使用《1》导包 from urllib import request ,《2》定义要爬取的网站 url=’http://www.baidu.com/s?wd=ip’ 《3》分配数据 proxy={ ‘http’: ‘http://xxxx’ } 《4》创建handler用于实现代理请求到的数据的添加 handler=request.ProxyHandler(p...
2018-08-18 19:41:44 96
原创 动态获取cookie 进行数据的爬取
import requests,jsonfrom urllib import request,parse#这个包是用来保存cookie的import hashlibfrom http import cookiejar def md5_password(password_str): #创建加密对象 MD5=hashlib.md5...
2018-08-17 19:08:26 5592 1
原创 cookie的动态获取
动态获取cookie(1)创建一个对象用于存储cookie 相当于一个容器cookie=cookiejar.CookieJar()(2)这是一个操作 相当于获取到cookie 之后再存放到对象之中handler=request.HTTPCookieProcessor(cookie)(3)opener 用于检测是否有cookie 和cookie 是否更新了 如果更新了那么调用handler ...
2018-08-17 18:18:41 3087
原创 requests简单爬取网站数据
用requests爬取数据 import requests,json def renren(url,headers): response=requests.get(url,headers=headers) res_text=response.text with open(‘renren...
2018-08-17 15:38:42 741
原创 人人网普通登录源码爬取
**人人网普通登录源码爬取**import requests,jsonfrom urllib import requestdef renren(url,headers): res=request.Request(url,headers=headers) response=request.urlopen(res) html_bytes=re...
2018-08-17 15:19:16 1045
原创 有道翻译 翻译功能的功能实现
导入所需要的包import requests import time,random import hashlib,json封装MD5加密函数传入字符串获取加密后的内容def md5_jiami(need_str): 创建实例化的加密对象(把字符串转化为二进制文件) need_bytes =need_str.encode(‘utf-8’) 创建加密的对象...
2018-08-17 11:54:46 1488
原创 拓展功能
from urllib import request, parse from urllib.error import HTTPError, URLError保存cookiefrom http import cookiejar class session(object): def init(self): cookie_object = cookiejar....
2018-08-15 01:44:42 476
原创 session 和cookie的区别 ---- 和数据的爬取流程-----------和简单实例
<一>session 和 cookie的主要区别:session 是在服务器端缓存一段时间的必要的信息 用于登陆后的快速识别 安全性高于cookie 但是会占用服务器的资源 安全信息才会使用 cookie 是每往服务器发送请求时连同cookie 一起发送用于验证是否已登录以获取相应的浏览权限 而不必每次都登陆 cookie 一般都小于14k 数量小于20个&...
2018-08-14 00:38:07 208
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人