自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 抓取boss直聘的信息

from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parse headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...

2018-08-28 08:22:32 1440

原创 使用多进程抓取西祠代理ip

import requests from lxml import etree import time import multiprocessing def get_all_proxy(queue): url = ‘http://www.xicidaili.com/nn/1’ headers = { 'User-Agent': 'Mozilla/5.0 (Windows ...

2018-08-28 08:21:15 432

原创 使用测试工具打开网页

from selenium import webdriver import time url = ‘https://www.jianshu.com/p/bf7e842285fc‘# 获取一个chrome的操作对象, 这里就已经打开浏览器了 driver = webdriver.Chrome() time.sleep(2) driver.get(url)# 打开一个页面 time.sle...

2018-08-28 08:19:27 831

原创 多线程

import threading import time def th_run(params): time.sleep(2) print(params) time.sleep(2) params = ‘black potato is a good boy’ t = threading.Thread(target=th_run, args=(params,))#...

2018-08-28 08:18:09 195

原创 多进程

、 import time import multiprocessing def process_run(params): time.sleep(2) print(params) time.sleep(2) print(params) print(params) print(params) time.sleep(2) ...

2018-08-28 08:17:13 137

原创 Xpath的使用

import requests from lxml import etree base_url = ‘https://www.ximalaya.com/lishi/4164479/15022309’ track_id = base_url.split(‘/’)[-1] url = ‘https://www.ximalaya.com/revision/play/tracks?trackId...

2018-08-28 08:15:41 223

原创 抓取今日头条照片

import re import requests import json import os from urllib import request headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3...

2018-08-28 08:14:03 319

原创 正则表达式①

正则表达式 re.match从头开始 ^以这里开始 .任意字符 \d任意数字 \转义字符 *多个 $结束字符 正则表达式的包 import re data=’hhh1hhhh2h3h5\’ # 三个函数 re.match re.search re.compile 需要匹配的字符串 data2=re.match(‘h*\d*h*\d*h*\d*h*\...

2018-08-16 00:15:03 289

原创 使用requests爬取西祠代理首页

import requests url = ‘http://www.xicidaili.com’ proxy = { ‘http’: ‘http://root:Yao+ql2011@101.200.50.18:8118’ headers = { ‘User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/53...

2018-08-16 00:12:14 608

原创 使用requests爬取百度翻译

import requests import json # 1. url url = ‘http://fanyi.baidu.com/sug’ # 2. form/ data/ body def translate(kw): form = { ‘kw’: kw } # # 2.1 字典转换成str # form_str = ...

2018-08-16 00:02:44 610

原创 使用代理用requests函数爬取淘宝网首页

import requests proxy={ ‘http’: ‘http://alice:123456@120.78.166.84:6666‘, } url=’http://www.taobao.com/’ headers={ ‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHT...

2018-08-15 23:40:05 598

原创 分装含有cookie的爬取函数

from urllib import request, parse from urllib.error import HTTPError, URLError from http import cookiejar class session(object): def init(self): cookie_object = cookiejar.CookieJar() ...

2018-08-14 23:28:13 164

原创 封装简单爬取的函数

from urllib import request,parse from urllib.error import HTTPError,URLError def get(url, headers=None): return urlrequests(url, headers=headers) def post(url, form, headers=None): return...

2018-08-14 23:25:50 132

原创 爬取百度首页

from urllib import request     mmm     #导入urllib包中的request url=’www.baidu.com’        路径:网址 req=resquset.Resquest(url)  

2018-08-14 20:10:43 1219

原创 浅谈cookie和session的区别和用法

cookie 是一种发送到客户浏览器的文本串句柄,并保存在客户机硬盘上,可以用来在某个WEB站点会话间持久的保持数据。 session其实指的就是访问者从到达某个特定主页到离开为止的那段时间。就是利用cookie保存信息,当session结束之后cookie也已经过期。 cookie和session都是用来跟踪浏览器用户身份的会话方式。 如果浏览器使用的是cookie,那么所有的数据都保存在浏览...

2018-08-13 23:38:14 199

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除