二八定律-CSDN博客

原创抓取boss直聘的信息

from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parseheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...

2018-08-28 08:22:32 1704

原创使用多进程抓取西祠代理ip

import requests from lxml import etree import time import multiprocessingdef get_all_proxy(queue): url = ‘http://www.xicidaili.com/nn/1’headers = { 'User-Agent': 'Mozilla/5.0 (Windows ...

2018-08-28 08:21:15 467

原创使用测试工具打开网页

from selenium import webdriver import timeurl = ‘https://www.jianshu.com/p/bf7e842285fc‘# 获取一个chrome的操作对象, 这里就已经打开浏览器了driver = webdriver.Chrome() time.sleep(2)driver.get(url)# 打开一个页面time.sle...

2018-08-28 08:19:27 875

原创多线程

import threading import timedef th_run(params): time.sleep(2) print(params) time.sleep(2)params = ‘black potato is a good boy’t = threading.Thread(target=th_run, args=(params,))#...

2018-08-28 08:18:09 218

原创多进程

、import time import multiprocessing def process_run(params): time.sleep(2) print(params) time.sleep(2) print(params) print(params) print(params) time.sleep(2) ...

2018-08-28 08:17:13 154

原创 Xpath的使用

import requests from lxml import etreebase_url = ‘https://www.ximalaya.com/lishi/4164479/15022309’track_id = base_url.split(‘/’)[-1]url = ‘https://www.ximalaya.com/revision/play/tracks?trackId...

2018-08-28 08:15:41 250

原创抓取今日头条照片

import re import requests import json import os from urllib import requestheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3...

2018-08-28 08:14:03 361

原创正则表达式①

正则表达式re.match从头开始^以这里开始 .任意字符 \d任意数字 \转义字符 *多个 $结束字符正则表达式的包import re data=’hhh1hhhh2h3h5\’ # 三个函数re.matchre.searchre.compile需要匹配的字符串data2=re.match(‘h*\d*h*\d*h*\d*h*\...

2018-08-16 00:15:03 319

原创使用requests爬取西祠代理首页

import requestsurl = ‘http://www.xicidaili.com’proxy = { ‘http’: ‘http://root:Yao+ql2011@101.200.50.18:8118’headers = { ‘User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/53...

2018-08-16 00:12:14 634

原创使用requests爬取百度翻译

import requests import json # 1. url url = ‘http://fanyi.baidu.com/sug’ # 2. form/ data/ body def translate(kw): form = { ‘kw’: kw } # # 2.1 字典转换成str # form_str = ...

2018-08-16 00:02:44 654

原创使用代理用requests函数爬取淘宝网首页

import requests proxy={ ‘http’: ‘http://alice:123456@120.78.166.84:6666‘, } url=’http://www.taobao.com/’ headers={ ‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHT...

2018-08-15 23:40:05 632

原创分装含有cookie的爬取函数

from urllib import request, parse from urllib.error import HTTPError, URLErrorfrom http import cookiejarclass session(object): def init(self): cookie_object = cookiejar.CookieJar() ...

2018-08-14 23:28:13 194

原创封装简单爬取的函数

from urllib import request,parse from urllib.error import HTTPError,URLError def get(url, headers=None): return urlrequests(url, headers=headers)def post(url, form, headers=None): return...

2018-08-14 23:25:50 157

原创爬取百度首页

from urllib import request &nbsp; &nbsp; mmm &nbsp; &nbsp; #导入urllib包中的request url=’www.baidu.com’ &nbsp; &nbsp; &nbsp; &nbsp;路径：网址 req=resquset.Resquest(url) &nbsp;

2018-08-14 20:10:43 1254

原创浅谈cookie和session的区别和用法

cookie 是一种发送到客户浏览器的文本串句柄，并保存在客户机硬盘上，可以用来在某个WEB站点会话间持久的保持数据。session其实指的就是访问者从到达某个特定主页到离开为止的那段时间。就是利用cookie保存信息，当session结束之后cookie也已经过期。cookie和session都是用来跟踪浏览器用户身份的会话方式。如果浏览器使用的是cookie，那么所有的数据都保存在浏览...

2018-08-13 23:38:14 234