- 博客(15)
- 收藏
- 关注
原创 抓取boss直聘的信息
from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parse headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...
2018-08-28 08:22:32 1440
原创 使用多进程抓取西祠代理ip
import requests from lxml import etree import time import multiprocessing def get_all_proxy(queue): url = ‘http://www.xicidaili.com/nn/1’ headers = { 'User-Agent': 'Mozilla/5.0 (Windows ...
2018-08-28 08:21:15 432
原创 使用测试工具打开网页
from selenium import webdriver import time url = ‘https://www.jianshu.com/p/bf7e842285fc‘# 获取一个chrome的操作对象, 这里就已经打开浏览器了 driver = webdriver.Chrome() time.sleep(2) driver.get(url)# 打开一个页面 time.sle...
2018-08-28 08:19:27 831
原创 多线程
import threading import time def th_run(params): time.sleep(2) print(params) time.sleep(2) params = ‘black potato is a good boy’ t = threading.Thread(target=th_run, args=(params,))#...
2018-08-28 08:18:09 195
原创 多进程
、 import time import multiprocessing def process_run(params): time.sleep(2) print(params) time.sleep(2) print(params) print(params) print(params) time.sleep(2) ...
2018-08-28 08:17:13 137
原创 Xpath的使用
import requests from lxml import etree base_url = ‘https://www.ximalaya.com/lishi/4164479/15022309’ track_id = base_url.split(‘/’)[-1] url = ‘https://www.ximalaya.com/revision/play/tracks?trackId...
2018-08-28 08:15:41 223
原创 抓取今日头条照片
import re import requests import json import os from urllib import request headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3...
2018-08-28 08:14:03 319
原创 正则表达式①
正则表达式 re.match从头开始 ^以这里开始 .任意字符 \d任意数字 \转义字符 *多个 $结束字符 正则表达式的包 import re data=’hhh1hhhh2h3h5\’ # 三个函数 re.match re.search re.compile 需要匹配的字符串 data2=re.match(‘h*\d*h*\d*h*\d*h*\...
2018-08-16 00:15:03 289
原创 使用requests爬取西祠代理首页
import requests url = ‘http://www.xicidaili.com’ proxy = { ‘http’: ‘http://root:Yao+ql2011@101.200.50.18:8118’ headers = { ‘User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/53...
2018-08-16 00:12:14 608
原创 使用requests爬取百度翻译
import requests import json # 1. url url = ‘http://fanyi.baidu.com/sug’ # 2. form/ data/ body def translate(kw): form = { ‘kw’: kw } # # 2.1 字典转换成str # form_str = ...
2018-08-16 00:02:44 610
原创 使用代理用requests函数爬取淘宝网首页
import requests proxy={ ‘http’: ‘http://alice:123456@120.78.166.84:6666‘, } url=’http://www.taobao.com/’ headers={ ‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHT...
2018-08-15 23:40:05 598
原创 分装含有cookie的爬取函数
from urllib import request, parse from urllib.error import HTTPError, URLError from http import cookiejar class session(object): def init(self): cookie_object = cookiejar.CookieJar() ...
2018-08-14 23:28:13 164
原创 封装简单爬取的函数
from urllib import request,parse from urllib.error import HTTPError,URLError def get(url, headers=None): return urlrequests(url, headers=headers) def post(url, form, headers=None): return...
2018-08-14 23:25:50 132
原创 爬取百度首页
from urllib import request     mmm     #导入urllib包中的request url=’www.baidu.com’        路径:网址 req=resquset.Resquest(url)  
2018-08-14 20:10:43 1219
原创 浅谈cookie和session的区别和用法
cookie 是一种发送到客户浏览器的文本串句柄,并保存在客户机硬盘上,可以用来在某个WEB站点会话间持久的保持数据。 session其实指的就是访问者从到达某个特定主页到离开为止的那段时间。就是利用cookie保存信息,当session结束之后cookie也已经过期。 cookie和session都是用来跟踪浏览器用户身份的会话方式。 如果浏览器使用的是cookie,那么所有的数据都保存在浏览...
2018-08-13 23:38:14 199
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人