自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 linux 的使用——文件查找 find 和 locate,which ,whereis

文件查找命令find在文件资料库中查找locatelocate的安装使用安装命令yum install mlocate刷新updatedb然后,在linux里使用和find一样的功能例如 find -name xxlocate xxx...

2019-07-31 10:13:49 150

原创 钛媒体的抓取

import requestsimport re,json,pymysqlss=0headers = {“User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36’,}for num in...

2018-12-28 19:09:41 250

原创 滚动资讯的爬取

import requestsimport time,json,re,pymysqlfrom lxml import etreeheaders = {“User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safar...

2018-12-28 19:09:01 6444

原创 新浪数据抓取

import requestsimport re,json,pymysql,timeheaders = {“Accept”: “application/json, text/javascript, /; q=0.01”,“Accept-Encoding”: “gzip, deflate, br”,“Accept-Language”: “zh-CN,zh;q=0.9,en;q=0.8”,...

2018-12-28 19:07:49 271

原创 快科技的抓取

import requestsimport time,json,re,pymysqlfrom lxml import etreearticle_id_list=[608862]def ID_last(article_id_list):time_now = int((time.time()) * 1000)headers = {“User-Agent”: ‘Mozilla/5.0 (W...

2018-12-28 19:06:39 197

原创 凤凰网的抓取

import requestsimport re,json,pymysql,time#获取页码IDarticle_id_list=[“http://shankapi.ifeng.com/shanklist//getColumnInfo//default/6429514672495399578/1532918315000/20/5-35059-/getColumnInfoCallback?c...

2018-12-28 19:06:03 2095

原创 360快传号的爬取

URL=’’‘http://m.news.so.com/transcoding?url=http%3A%2F%2Fzm.news.so.com%2F86ca013a39d30779474f8fee68415ae0&check=396e04dcaf3ef4a5http://m.news.so.com/transcoding?url=http%3A%2F%2Fzm.news.so.com%2...

2018-12-28 19:02:20 4223

原创 分词加关键词提取

import numpy as npimport pandas as pdimport jieba#读取文件news_all=pd.read_excel(r"",names=[“title”,“url”,“kind”])new_all=news_all.dropna()#选取标题并列表化title_all=new_all.title.value.tolist()#创建一个列表用于存...

2018-12-05 05:05:58 818

原创 测试使用

测试使用的url 是 url= httpbin.org/get返回的结果是下面:{ "args": {}, "headers": { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "Accept-Encodi...

2018-08-30 21:16:45 155

原创 运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用

数据的流程 1.scrapy 初始的内容是添加在spiders内部的 他的初始值是通过两种方式获取的 GET :scrapy的默认方式 start_urls=”xxx” POST :注释掉start_urls 添加start_requests() 函数 2.spiders 把初始值传递给scheduler, scheduler 接受请求request 并存储 3.scheduler 发送请...

2018-08-30 10:50:04 242

原创 用selenium 进行加载

#导入包from selenium import webdriver不打开浏览器加载页面的的内容tt=webdriver.ChromeOptions() tt.add_argument(‘–headless’)打开浏览器driver=webdriver.Chrome(chrome_options=tt)确定要访问的网址url=’https://www.ba...

2018-08-25 21:29:09 229

原创 用selenium 进行自动登录和首页信息和账号页

说明:本页并不是爬取数据 只是用selenium 进行网站自动登录(有验证码) 并获取一个网页所有的信息from selenium import webdriver url=’https://accounts.douban.com/login?alias=&redir=https%3A%2F%2Fwww.douban.com%2F&source=index_nav&...

2018-08-25 18:58:25 1784

原创 西刺代理用多进程爬取

运用多进程检测西刺代理中免费代理中的可用代理import requests from lxml import etree def daili(queue): #爬取5页代理 for s in range(1,5): url = ‘http://www.xicidaili.com/nn/%d‘% s headers = { ...

2018-08-24 19:49:31 415

原创 多进程批量下载图片

import requests,os,time,random from lxml import etree from urllib import request判断系统中是否存在文件夹 若不存在则创建if not os.path.exists(‘down’): os.mkdir(‘down’)爬取所有页码的所有图片def allpage_allpages(qu...

2018-08-23 23:57:59 529

转载 线程池的三种使用方法

import threadpool import timedef sayhello (a): print(“hello: “+a) time.sleep(2)def main(): global result seed=[“a”,”b”,”c”,”d”,”e”,”f”] start=time.time() task_pool=t...

2018-08-23 23:56:21 1170

原创 进程和线程 的简单书写代码和实现

导包import multiprocessing,time创建进程执行的函数def tt(var): time.sleep(2) print(var) time.sleep(2) print(var)var=’这是进程’创建一个进程if name==’main‘: p=multiprocessing.Process(...

2018-08-23 20:14:14 338

原创 妹子图片的全爬取

import requests,os,time,random from lxml import etree from urllib import request判断系统中是否存在文件夹 若不存在则创建if not os.path.exists(‘xiazai’): os.mkdir(‘xiazai’)爬取所有页码的所有图片def allpage_allpage...

2018-08-22 20:31:07 1585

原创 进程和县城的区别

在理解进程和线程概念之前首选要对并发有一定的感性认识,如果服务器同一时间内只能服务于一个客户端,其他客户端都再那里傻等的话,可见其性能的低下估计会被客户骂出翔来,因此并发编程应运而生,并发是网络编程中必须考虑的问题。实现并发的方式有多种:比如多进程、多线程、IO多路复用。多进程 进程是资源(CPU、内存等)分配的基本单位,它是程序执行时的一个实例。程序运行时系统就会创建一个进程,并为它分配资...

2018-08-20 22:33:57 1179

原创 电影url 批两下载的思路和代码

import requests,re from zhouliu.class_tt import class_tt实例化一个添加数据到数据库的类dytt_mysql=class_tt() m=0 for i in range(1,5): url=’http://www.dytt8.net/html/gndy/china/list_4_%d.html‘% i pr...

2018-08-20 08:27:50 1491

原创 单页图片爬取--并保存到本地

import requests,re,json,os from urllib import request创建文件夹if not os.path.exists(‘ttss’): os.mkdir(‘ttss’)定义路由url=’https://www.toutiao.com/a6581764599236788740/’定义hearheaders={ ...

2018-08-19 20:55:13 197

原创 正则匹配

《1》点的使用 点“ . ”是能够匹配除了换行符以外的所有的字符包括空 例子: line=’zhengze’ result=re.match(‘z.’,line) if result: print(‘成功’) else: print(‘失败’)《2》反斜杠(‘\’)的...

2018-08-19 18:31:57 143

原创 雪球--数据的爬取并存入数据库

爬取大量的数据的步骤(以雪球网——房产这栏为例)# 《1》要分析怎样才能通过程序自动生成路由# 《2》找到的规律是 变量有两个 count=10(第一页) max_id=-1 (第一页)# 《3》第二个规律从第二页开始 count都是15 max_id都是上一页数据走后一条的next_max_id# 《4》根据规律动态生成url#导入包 from urllib import...

2018-08-18 23:37:37 1371

原创 代理的使用

代理的使用《1》导包 from urllib import request ,《2》定义要爬取的网站 url=’http://www.baidu.com/s?wd=ip’ 《3》分配数据 proxy={ ‘http’: ‘http://xxxx’ } 《4》创建handler用于实现代理请求到的数据的添加 handler=request.ProxyHandler(p...

2018-08-18 19:41:44 96

原创 动态获取cookie 进行数据的爬取

import requests,jsonfrom urllib import request,parse#这个包是用来保存cookie的import hashlibfrom http import cookiejar def md5_password(password_str): #创建加密对象 MD5=hashlib.md5...

2018-08-17 19:08:26 5587 1

原创 cookie的动态获取

动态获取cookie(1)创建一个对象用于存储cookie 相当于一个容器cookie=cookiejar.CookieJar()(2)这是一个操作 相当于获取到cookie 之后再存放到对象之中handler=request.HTTPCookieProcessor(cookie)(3)opener 用于检测是否有cookie 和cookie 是否更新了 如果更新了那么调用handler ...

2018-08-17 18:18:41 3085

原创 requests简单爬取网站数据

用requests爬取数据 import requests,json def renren(url,headers): response=requests.get(url,headers=headers) res_text=response.text with open(‘renren...

2018-08-17 15:38:42 736

原创 人人网普通登录源码爬取

**人人网普通登录源码爬取**import requests,jsonfrom urllib import requestdef renren(url,headers): res=request.Request(url,headers=headers) response=request.urlopen(res) html_bytes=re...

2018-08-17 15:19:16 1042

原创 有道翻译 翻译功能的功能实现

导入所需要的包import requests import time,random import hashlib,json封装MD5加密函数传入字符串获取加密后的内容def md5_jiami(need_str): 创建实例化的加密对象(把字符串转化为二进制文件) need_bytes =need_str.encode(‘utf-8’) 创建加密的对象...

2018-08-17 11:54:46 1488

原创 拓展功能

from urllib import request, parse from urllib.error import HTTPError, URLError保存cookiefrom http import cookiejar class session(object): def init(self): cookie_object = cookiejar....

2018-08-15 01:44:42 476

原创 session 和cookie的区别 ---- 和数据的爬取流程-----------和简单实例

<一>session 和 cookie的主要区别:session 是在服务器端缓存一段时间的必要的信息 用于登陆后的快速识别 安全性高于cookie 但是会占用服务器的资源 安全信息才会使用 cookie 是每往服务器发送请求时连同cookie 一起发送用于验证是否已登录以获取相应的浏览权限 而不必每次都登陆 cookie 一般都小于14k 数量小于20个&...

2018-08-14 00:38:07 208

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除