chengjintao1121-CSDN博客

原创 linux 的使用——文件查找 find 和 locate，which ,whereis

文件查找命令find在文件资料库中查找locatelocate的安装使用安装命令yum install mlocate刷新updatedb然后，在linux里使用和find一样的功能例如 find -name xxlocate xxx...

2019-07-31 10:13:49 150

原创钛媒体的抓取

import requestsimport re,json,pymysqlss=0headers = {“User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36’,}for num in...

2018-12-28 19:09:41 251

原创滚动资讯的爬取

import requestsimport time,json,re,pymysqlfrom lxml import etreeheaders = {“User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safar...

2018-12-28 19:09:01 6444

原创新浪数据抓取

import requestsimport re,json,pymysql,timeheaders = {“Accept”: “application/json, text/javascript, /; q=0.01”,“Accept-Encoding”: “gzip, deflate, br”,“Accept-Language”: “zh-CN,zh;q=0.9,en;q=0.8”,...

2018-12-28 19:07:49 271

原创快科技的抓取

import requestsimport time,json,re,pymysqlfrom lxml import etreearticle_id_list=[608862]def ID_last(article_id_list):time_now = int((time.time()) * 1000)headers = {“User-Agent”: ‘Mozilla/5.0 (W...

2018-12-28 19:06:39 197

原创凤凰网的抓取

import requestsimport re,json,pymysql,time#获取页码IDarticle_id_list=[“http://shankapi.ifeng.com/shanklist//getColumnInfo//default/6429514672495399578/1532918315000/20/5-35059-/getColumnInfoCallback?c...

2018-12-28 19:06:03 2099

原创 360快传号的爬取

URL=’’‘http://m.news.so.com/transcoding?url=http%3A%2F%2Fzm.news.so.com%2F86ca013a39d30779474f8fee68415ae0&check=396e04dcaf3ef4a5http://m.news.so.com/transcoding?url=http%3A%2F%2Fzm.news.so.com%2...

2018-12-28 19:02:20 4230

原创分词加关键词提取

import numpy as npimport pandas as pdimport jieba#读取文件news_all=pd.read_excel(r"",names=[“title”,“url”,“kind”])new_all=news_all.dropna()#选取标题并列表化title_all=new_all.title.value.tolist()#创建一个列表用于存...

2018-12-05 05:05:58 818

原创测试使用

测试使用的url 是 url= httpbin.org/get返回的结果是下面：{ "args": {}, "headers": { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "Accept-Encodi...

2018-08-30 21:16:45 157

原创运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用

数据的流程 1.scrapy 初始的内容是添加在spiders内部的他的初始值是通过两种方式获取的 GET ：scrapy的默认方式 start_urls=”xxx” POST :注释掉start_urls 添加start_requests() 函数 2.spiders 把初始值传递给scheduler, scheduler 接受请求request 并存储 3.scheduler 发送请...

2018-08-30 10:50:04 242

原创用selenium 进行加载

#导入包from selenium import webdriver不打开浏览器加载页面的的内容tt=webdriver.ChromeOptions() tt.add_argument(‘–headless’)打开浏览器driver=webdriver.Chrome(chrome_options=tt)确定要访问的网址url=’https://www.ba...

2018-08-25 21:29:09 230

原创用selenium 进行自动登录和首页信息和账号页

说明：本页并不是爬取数据只是用selenium 进行网站自动登录（有验证码）并获取一个网页所有的信息from selenium import webdriver url=’https://accounts.douban.com/login?alias=&amp;redir=https%3A%2F%2Fwww.douban.com%2F&amp;source=index_nav&amp;...

2018-08-25 18:58:25 1784

原创西刺代理用多进程爬取

运用多进程检测西刺代理中免费代理中的可用代理import requests from lxml import etree def daili(queue): #爬取5页代理 for s in range(1,5): url = ‘http://www.xicidaili.com/nn/%d‘% s headers = { ...

2018-08-24 19:49:31 415

原创多进程批量下载图片

import requests,os,time,random from lxml import etree from urllib import request判断系统中是否存在文件夹若不存在则创建if not os.path.exists(‘down’): os.mkdir(‘down’)爬取所有页码的所有图片def allpage_allpages(qu...

2018-08-23 23:57:59 531

转载线程池的三种使用方法

import threadpool import timedef sayhello (a): print(“hello: “+a) time.sleep(2)def main(): global result seed=[“a”,”b”,”c”,”d”,”e”,”f”] start=time.time() task_pool=t...

2018-08-23 23:56:21 1171

原创进程和线程的简单书写代码和实现

导包import multiprocessing,time创建进程执行的函数def tt(var): time.sleep(2) print(var) time.sleep(2) print(var)var=’这是进程’创建一个进程if name==’main‘: p=multiprocessing.Process(...

2018-08-23 20:14:14 341

原创妹子图片的全爬取

import requests,os,time,random from lxml import etree from urllib import request判断系统中是否存在文件夹若不存在则创建if not os.path.exists(‘xiazai’): os.mkdir(‘xiazai’)爬取所有页码的所有图片def allpage_allpage...

2018-08-22 20:31:07 1586

原创进程和县城的区别

在理解进程和线程概念之前首选要对并发有一定的感性认识，如果服务器同一时间内只能服务于一个客户端，其他客户端都再那里傻等的话，可见其性能的低下估计会被客户骂出翔来，因此并发编程应运而生，并发是网络编程中必须考虑的问题。实现并发的方式有多种：比如多进程、多线程、IO多路复用。多进程进程是资源（CPU、内存等）分配的基本单位，它是程序执行时的一个实例。程序运行时系统就会创建一个进程，并为它分配资...

2018-08-20 22:33:57 1181

原创电影url 批两下载的思路和代码

import requests,re from zhouliu.class_tt import class_tt实例化一个添加数据到数据库的类dytt_mysql=class_tt() m=0 for i in range(1,5): url=’http://www.dytt8.net/html/gndy/china/list_4_%d.html‘% i pr...

2018-08-20 08:27:50 1492

原创单页图片爬取--并保存到本地

import requests,re,json,os from urllib import request创建文件夹if not os.path.exists(‘ttss’): os.mkdir(‘ttss’)定义路由url=’https://www.toutiao.com/a6581764599236788740/’定义hearheaders={ ...

2018-08-19 20:55:13 197

原创正则匹配

《1》点的使用点“ . ”是能够匹配除了换行符以外的所有的字符包括空例子： line=’zhengze’ result=re.match(‘z.’,line) if result: print(‘成功’) else： print(‘失败’)《2》反斜杠(‘\’)的...

2018-08-19 18:31:57 151

原创雪球--数据的爬取并存入数据库

爬取大量的数据的步骤(以雪球网——房产这栏为例）# 《1》要分析怎样才能通过程序自动生成路由# 《2》找到的规律是变量有两个 count=10(第一页） max_id=-1 (第一页）# 《3》第二个规律从第二页开始 count都是15 max_id都是上一页数据走后一条的next_max_id# 《4》根据规律动态生成url#导入包 from urllib import...

2018-08-18 23:37:37 1374

原创代理的使用

代理的使用《1》导包 from urllib import request ,《2》定义要爬取的网站 url=’http://www.baidu.com/s?wd=ip’ 《3》分配数据 proxy={ ‘http’: ‘http://xxxx’ } 《4》创建handler用于实现代理请求到的数据的添加 handler=request.ProxyHandler(p...

2018-08-18 19:41:44 96

原创动态获取cookie 进行数据的爬取

import requests,jsonfrom urllib import request,parse#这个包是用来保存cookie的import hashlibfrom http import cookiejar def md5_password(password_str): #创建加密对象 MD5=hashlib.md5...

2018-08-17 19:08:26 5591 1

原创 cookie的动态获取

动态获取cookie(1)创建一个对象用于存储cookie 相当于一个容器cookie=cookiejar.CookieJar()（2）这是一个操作相当于获取到cookie 之后再存放到对象之中handler=request.HTTPCookieProcessor(cookie)(3)opener 用于检测是否有cookie 和cookie 是否更新了如果更新了那么调用handler ...

2018-08-17 18:18:41 3087

原创 requests简单爬取网站数据

用requests爬取数据 import requests,json def renren(url,headers): response=requests.get(url,headers=headers) res_text=response.text with open(‘renren...

2018-08-17 15:38:42 740

原创人人网普通登录源码爬取

**人人网普通登录源码爬取**import requests,jsonfrom urllib import requestdef renren(url,headers)： res=request.Request(url,headers=headers) response=request.urlopen(res) html_bytes=re...

2018-08-17 15:19:16 1045

原创有道翻译翻译功能的功能实现

导入所需要的包import requests import time,random import hashlib,json封装MD5加密函数传入字符串获取加密后的内容def md5_jiami(need_str): 创建实例化的加密对象（把字符串转化为二进制文件） need_bytes =need_str.encode(‘utf-8’) 创建加密的对象...

2018-08-17 11:54:46 1488

原创拓展功能

from urllib import request, parse from urllib.error import HTTPError, URLError保存cookiefrom http import cookiejar class session(object): def init(self): cookie_object = cookiejar....

2018-08-15 01:44:42 476

原创 session 和cookie的区别 ---- 和数据的爬取流程-----------和简单实例

&amp;amp;lt;一&amp;amp;gt;session 和 cookie的主要区别:session 是在服务器端缓存一段时间的必要的信息用于登陆后的快速识别安全性高于cookie 但是会占用服务器的资源安全信息才会使用 cookie 是每往服务器发送请求时连同cookie 一起发送用于验证是否已登录以获取相应的浏览权限而不必每次都登陆 cookie 一般都小于14k 数量小于20个&amp;amp;...

2018-08-14 00:38:07 208

chengjintao1121的博客