爬虫
文章平均质量分 54
二八定律
这个作者很懒,什么都没留下…
展开
-
爬取百度首页
from urllib import request     mmm     #导入urllib包中的request url=’www.baidu.com’        路径:网址 req=resquset.Resquest(url)  原创 2018-08-14 20:10:43 · 1219 阅读 · 0 评论 -
使用多进程抓取西祠代理ip
import requests from lxml import etree import time import multiprocessingdef get_all_proxy(queue): url = ‘http://www.xicidaili.com/nn/1’headers = { 'User-Agent': 'Mozilla/5.0 (Windows ...原创 2018-08-28 08:21:15 · 432 阅读 · 0 评论 -
使用测试工具打开网页
from selenium import webdriver import timeurl = ‘https://www.jianshu.com/p/bf7e842285fc‘# 获取一个chrome的操作对象, 这里就已经打开浏览器了driver = webdriver.Chrome() time.sleep(2)driver.get(url)# 打开一个页面time.sle...原创 2018-08-28 08:19:27 · 831 阅读 · 0 评论 -
多线程
import threading import timedef th_run(params): time.sleep(2) print(params) time.sleep(2)params = ‘black potato is a good boy’t = threading.Thread(target=th_run, args=(params,))#...原创 2018-08-28 08:18:09 · 195 阅读 · 0 评论 -
多进程
、import time import multiprocessing def process_run(params): time.sleep(2) print(params) time.sleep(2) print(params) print(params) print(params) time.sleep(2) ...原创 2018-08-28 08:17:13 · 137 阅读 · 0 评论 -
Xpath的使用
import requests from lxml import etreebase_url = ‘https://www.ximalaya.com/lishi/4164479/15022309’track_id = base_url.split(‘/’)[-1]url = ‘https://www.ximalaya.com/revision/play/tracks?trackId...原创 2018-08-28 08:15:41 · 223 阅读 · 0 评论 -
抓取今日头条照片
import re import requests import json import os from urllib import requestheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3...原创 2018-08-28 08:14:03 · 319 阅读 · 0 评论 -
使用代理用requests函数爬取淘宝网首页
import requests proxy={ ‘http’: ‘http://alice:123456@120.78.166.84:6666‘, } url=’http://www.taobao.com/’ headers={ ‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHT...原创 2018-08-15 23:40:05 · 598 阅读 · 0 评论 -
分装含有cookie的爬取函数
from urllib import request, parse from urllib.error import HTTPError, URLErrorfrom http import cookiejarclass session(object): def init(self): cookie_object = cookiejar.CookieJar() ...原创 2018-08-14 23:28:13 · 164 阅读 · 0 评论 -
封装简单爬取的函数
from urllib import request,parse from urllib.error import HTTPError,URLError def get(url, headers=None): return urlrequests(url, headers=headers)def post(url, form, headers=None): return...原创 2018-08-14 23:25:50 · 132 阅读 · 0 评论 -
抓取boss直聘的信息
from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parseheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...原创 2018-08-28 08:22:32 · 1439 阅读 · 0 评论