自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 抓取boss直聘的信息

from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parseheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...

2018-08-28 08:22:32 1390

原创 使用多进程抓取西祠代理ip

import requests from lxml import etree import time import multiprocessingdef get_all_proxy(queue): url = ‘http://www.xicidaili.com/nn/1’headers = { 'User-Agent': 'Mozilla/5.0 (Windows ...

2018-08-28 08:21:15 405

原创 使用测试工具打开网页

from selenium import webdriver import timeurl = ‘https://www.jianshu.com/p/bf7e842285fc‘# 获取一个chrome的操作对象, 这里就已经打开浏览器了driver = webdriver.Chrome() time.sleep(2)driver.get(url)# 打开一个页面time.sle...

2018-08-28 08:19:27 822

原创 多线程

import threading import timedef th_run(params): time.sleep(2) print(params) time.sleep(2)params = ‘black potato is a good boy’t = threading.Thread(target=th_run, args=(params,))#...

2018-08-28 08:18:09 155

原创 多进程

、import time import multiprocessing def process_run(params): time.sleep(2) print(params) time.sleep(2) print(params) print(params) print(params) time.sleep(2) ...

2018-08-28 08:17:13 129

原创 Xpath的使用

import requests from lxml import etreebase_url = ‘https://www.ximalaya.com/lishi/4164479/15022309’track_id = base_url.split(‘/’)[-1]url = ‘https://www.ximalaya.com/revision/play/tracks?trackId...

2018-08-28 08:15:41 212

原创 抓取今日头条照片

import re import requests import json import os from urllib import requestheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3...

2018-08-28 08:14:03 286

原创 正则表达式①

正则表达式re.match从头开始^以这里开始 .任意字符 \d任意数字 \转义字符 *多个 $结束字符正则表达式的包import re data=’hhh1hhhh2h3h5\’ # 三个函数re.matchre.searchre.compile需要匹配的字符串data2=re.match(‘h*\d*h*\d*h*\d*h*\...

2018-08-16 00:15:03 264

原创 使用requests爬取西祠代理首页

import requestsurl = ‘http://www.xicidaili.com’proxy = { ‘http’: ‘http://root:Yao+ql2011@101.200.50.18:8118’headers = { ‘User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/53...

2018-08-16 00:12:14 602

原创 使用requests爬取百度翻译

import requests import json # 1. url url = ‘http://fanyi.baidu.com/sug’ # 2. form/ data/ body def translate(kw): form = { ‘kw’: kw } # # 2.1 字典转换成str # form_str = ...

2018-08-16 00:02:44 585

原创 使用代理用requests函数爬取淘宝网首页

import requests proxy={ ‘http’: ‘http://alice:123456@120.78.166.84:6666‘, } url=’http://www.taobao.com/’ headers={ ‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHT...

2018-08-15 23:40:05 585

原创 分装含有cookie的爬取函数

from urllib import request, parse from urllib.error import HTTPError, URLErrorfrom http import cookiejarclass session(object): def init(self): cookie_object = cookiejar.CookieJar() ...

2018-08-14 23:28:13 138

原创 封装简单爬取的函数

from urllib import request,parse from urllib.error import HTTPError,URLError def get(url, headers=None): return urlrequests(url, headers=headers)def post(url, form, headers=None): return...

2018-08-14 23:25:50 123

原创 爬取百度首页

from urllib import request     mmm     #导入urllib包中的request url=’www.baidu.com’        路径:网址 req=resquset.Resquest(url)  

2018-08-14 20:10:43 1194

原创 浅谈cookie和session的区别和用法

cookie 是一种发送到客户浏览器的文本串句柄,并保存在客户机硬盘上,可以用来在某个WEB站点会话间持久的保持数据。session其实指的就是访问者从到达某个特定主页到离开为止的那段时间。就是利用cookie保存信息,当session结束之后cookie也已经过期。cookie和session都是用来跟踪浏览器用户身份的会话方式。如果浏览器使用的是cookie,那么所有的数据都保存在浏览...

2018-08-13 23:38:14 189

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除