爬虫
远方的飞猪
热爱编程,代码行者。
展开
-
python 爬取 csdn 网站信息
python 爬取 csdn 网站信息完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/csdn#!/usr/bin/env python# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport multiprocessingimport timesuccess_num = 0CONSTANT = 0d.原创 2020-09-21 20:11:40 · 259 阅读 · 0 评论 -
python 爬取全国农产品批发指数网站 charles 抓取 flash 数据包 分析数据包数据
python 爬取全国农产品批发指数网站charles 抓取 flash 数据包 分析数据包数据amf 数据请求与返回格式 flash 数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/agriculture#!/usr/bin/env python# -*- coding: utf-8 -*-import requestsimport uuidimport pyamfimport da..原创 2020-09-21 20:11:46 · 1012 阅读 · 1 评论 -
python 获取东方财富网站的数据
python 获取东方财富网站的数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/EastWealthWebsite#!/usr/bin/env python# -*- coding: utf-8 -*-import pandas as pdfrom selenium import webdriverfrom selenium.webdriver.support import expected_cond.原创 2020-09-21 20:11:51 · 3787 阅读 · 0 评论 -
Python 爬虫处理字体加密 汽车之家、猫眼、去哪儿网
Python 爬虫处理字体加密完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/fontfaceDecrypt汽车之家:#!/usr/bin/env python# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport reimport sysimport iofrom fontTools.ttLib import TTFont原创 2020-09-21 20:11:56 · 1167 阅读 · 0 评论 -
Python 分布式爬取 InfoQ 信息
Python 分布式爬取 InfoQ 信息完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/InfoQ#!/usr/bin/env python# -*- coding: utf-8 -*-import jsonimport datetimeimport timeimport randomfrom InfoQ.tool.header import headersimport requestsfrom In原创 2020-09-21 20:11:35 · 208 阅读 · 0 评论 -
python 爬取 全网代理 IP 网站 + 破解端口加密混淆
python 爬取 全网代理 IP 网站完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/IP#!/usr/bin/env python# -*- coding: utf-8 -*-from lxml import etreeimport requestsdef spider(): url = 'http://www.goubanjia.com/' headers = { 'A原创 2020-09-20 11:05:23 · 409 阅读 · 0 评论 -
python 爬取 IT 桔子网
python 爬取 IT 桔子网完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ITOrangeimport requestsimport reimport pymongoimport randomimport timeimport jsonimport randomimport numpy as npimport csvimport pandas as pdfrom fake_useragent i原创 2020-09-20 11:05:18 · 1439 阅读 · 0 评论 -
python selenium 爬取去哪儿网的数据
python selenium 爬取去哪儿网的数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/selenium+qunaerwang#!/usr/bin/python# -*- coding: UTF-8 -*-from selenium import webdriverimport datetimefrom selenium.webdriver.support.ui import WebDriverWai原创 2020-09-20 11:05:13 · 1046 阅读 · 0 评论 -
python 爬取拉钩网数据
python 爬取拉钩网数据完整代码下载:https://github.com/tanjunchen/SpiderProject/blob/master/lagou/LaGouSpider.py#!/usr/bin/env python# -*- coding: utf-8 -*-import randomimport timeimport requestsfrom openpyxl import Workbookimport pymysql.cursorsdef get_c原创 2020-09-20 11:05:06 · 346 阅读 · 0 评论 -
mitmproxy python 使用案例
python mitmproxy 使用案例完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/mitmproxyspider#!/usr/bin/env python# -*- coding: utf-8 -*-from mitmproxy import ctx, flowdef job(url): injected_javascript = ''' // overwrite the `la..原创 2020-09-20 11:04:56 · 1269 阅读 · 0 评论 -
python 模拟人为行为登录 zcool 站酷网站
python 模拟人为行为登录 zcool 站酷网站完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/zcool#!/usr/bin/env python# -*- coding: utf-8 -*-from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriv原创 2020-09-20 11:04:47 · 247 阅读 · 0 评论 -
python 获取企名科技数据
完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/qimingpian#!/usr/bin/env python# -*- coding: utf-8 -*-import execjsimport base64import jsonimport requestsheaders = { 'Accept': 'application/json, text/plain, */*', 'Content-原创 2020-09-20 11:04:16 · 573 阅读 · 0 评论 -
微信助手 itchat 小工具的使用
微信助手 itchat 小工具的使用完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/wechartrobot#!/usr/bin/env python# -*- coding: utf-8 -*-import osimport requestsimport itchatfrom itchat.content import *import timefrom apscheduler.schedulers.ba原创 2020-09-20 11:04:11 · 1014 阅读 · 0 评论 -
python 爬取投融界专业平台
完整代码下载:https://github.com/tanjunchen/SpiderProject/blob/master/tourongzi/Spider.py#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsfrom fake_useragent import UserAgentimport pandas as pdfrom lxml import etreeimport reua = UserAgent().原创 2020-09-20 11:04:06 · 229 阅读 · 0 评论 -
python 爬取投资项目在线审批监管平台
完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/wwwtzxmgovcn投资项目在线审批监管平台# !/usr/bin/env python# -*- coding: utf-8 -*-import requestsimport pandas as pdimport randomimport timefrom requests.packages.urllib3.exceptions import Insec原创 2020-09-19 00:55:41 · 492 阅读 · 0 评论 -
python 爬取中国木材价格指数网
python 爬取中国木材价格指数网完整代码:https://github.com/tanjunchen/SpiderProject/tree/master/yuzhuprice#!/usr/bin/env python# -*- coding: utf-8 -*-from datetime import datetimefrom concurrent.futures.thread import ThreadPoolExecutorfrom multiprocessing impo.原创 2020-09-19 00:52:42 · 757 阅读 · 0 评论 -
python 爬取自如租房的租房数据,使用图像识别获取价格信息
python 爬取自如租房的租房数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ziru#!/usr/bin/python# -*- coding: UTF-8 -*-import reimport requestsimport pytesseractfrom PIL import Imagefrom selenium import webdriverfrom fake_useragent impor原创 2020-09-19 00:50:43 · 807 阅读 · 0 评论 -
python 爬取康美中药网站
python 爬取康美中药网站完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/kangmeizhongyao#!/usr/bin/env python# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport jsonimport pandas as pdimport datetimefrom kangmeizhongyao..原创 2020-09-19 00:47:41 · 413 阅读 · 0 评论 -
python 爬取中国邮政编码
源代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ZipCode中国邮政编码http://www.yb21.cn#!/usr/bin/env python# -*- coding: utf-8 -*-import jsonfrom lxml import etreefrom multiprocessing import Manager, cpu_count, Poolimport requestsfr.原创 2020-09-19 00:41:05 · 1611 阅读 · 0 评论 -
python 爬取中国房价行情网网站
代码下载https://github.com/tanjunchen/SpiderProject/tree/master/HouseWorldNewHouseHousePriceSpider.py#!/usr/bin/env python# -*- coding: utf-8 -*-import jsonimport timefrom multiprocessing import Pool, Manager, cpu_countfrom urllib.parse import urljo.原创 2020-09-19 00:37:13 · 789 阅读 · 0 评论 -
Python 百度百科分布式爬虫案例
控制端:ControNode:DataOutPut.py#!/usr/bin/python#-*-coding:UTF-8-*-importcodecsimporttimeclassDataOutPut(object):def__init__(self):self.filepath='baike_%s.html'%(time.strftime("%Y_%m_%d_%H_%M_%S",time.localti...原创 2020-09-19 00:12:16 · 249 阅读 · 0 评论 -
爬取去哪儿网机票数据
抓取去哪儿网机票数据此次,我们使用webdriver测试抓取去哪儿网机票数据,为什么不爬取主站而爬取 m站,因为主站机票价格通过css操作使网页显示价格与html元素呈现的价格不一样,虽然可以解决但比较繁琐。但是m站价格两者是相同的,所以我们抓取m站点的数据,感兴趣的可以自行破解css混淆抓取主站数据。移动端数据主站PC端通过分析得知数据...原创 2019-08-10 11:03:11 · 6786 阅读 · 3 评论