自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (6)
  • 问答 (1)
  • 收藏
  • 关注

原创 Python MapReduce 案例

import sysimport rep = re.compile(r'\w+')for line in sys.stdin: ss = line.strip().split(' ') for s in ss: if len(p.findall(s)) < 1: continue s_low = p.findall(s)[0].lower() print(s_low + ',' + '1')im.

2020-09-24 20:56:53 532

原创 Python 爬虫处理字体加密 汽车之家、猫眼、去哪儿网

Python 爬虫处理字体加密完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/fontfaceDecrypt汽车之家:#!/usr/bin/env python# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport reimport sysimport iofrom fontTools.ttLib import TTFont

2020-09-21 20:11:56 1044

原创 python 获取东方财富网站的数据

python 获取东方财富网站的数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/EastWealthWebsite#!/usr/bin/env python# -*- coding: utf-8 -*-import pandas as pdfrom selenium import webdriverfrom selenium.webdriver.support import expected_cond.

2020-09-21 20:11:51 3602

原创 python 爬取全国农产品批发指数网站 charles 抓取 flash 数据包 分析数据包数据

python 爬取全国农产品批发指数网站charles 抓取 flash 数据包 分析数据包数据amf 数据请求与返回格式 flash 数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/agriculture#!/usr/bin/env python# -*- coding: utf-8 -*-import requestsimport uuidimport pyamfimport da..

2020-09-21 20:11:46 942 1

原创 python 爬取 csdn 网站信息

python 爬取 csdn 网站信息完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/csdn#!/usr/bin/env python# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport multiprocessingimport timesuccess_num = 0CONSTANT = 0d.

2020-09-21 20:11:40 229

原创 Python 分布式爬取 InfoQ 信息

Python 分布式爬取 InfoQ 信息完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/InfoQ#!/usr/bin/env python# -*- coding: utf-8 -*-import jsonimport datetimeimport timeimport randomfrom InfoQ.tool.header import headersimport requestsfrom In

2020-09-21 20:11:35 174

原创 python 爬取 全网代理 IP 网站 + 破解端口加密混淆

python 爬取 全网代理 IP 网站完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/IP#!/usr/bin/env python# -*- coding: utf-8 -*-from lxml import etreeimport requestsdef spider(): url = 'http://www.goubanjia.com/' headers = { 'A

2020-09-20 11:05:23 375

原创 python 爬取 IT 桔子网

python 爬取 IT 桔子网完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ITOrangeimport requestsimport reimport pymongoimport randomimport timeimport jsonimport randomimport numpy as npimport csvimport pandas as pdfrom fake_useragent i

2020-09-20 11:05:18 1313

原创 python selenium 爬取去哪儿网的数据

python selenium 爬取去哪儿网的数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/selenium+qunaerwang#!/usr/bin/python# -*- coding: UTF-8 -*-from selenium import webdriverimport datetimefrom selenium.webdriver.support.ui import WebDriverWai

2020-09-20 11:05:13 902

原创 python 爬取拉钩网数据

python 爬取拉钩网数据完整代码下载:https://github.com/tanjunchen/SpiderProject/blob/master/lagou/LaGouSpider.py#!/usr/bin/env python# -*- coding: utf-8 -*-import randomimport timeimport requestsfrom openpyxl import Workbookimport pymysql.cursorsdef get_c

2020-09-20 11:05:06 306

原创 mitmproxy python 使用案例

python mitmproxy 使用案例完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/mitmproxyspider#!/usr/bin/env python# -*- coding: utf-8 -*-from mitmproxy import ctx, flowdef job(url): injected_javascript = ''' // overwrite the `la..

2020-09-20 11:04:56 1213

原创 python 模拟人为行为登录 zcool 站酷网站

python 模拟人为行为登录 zcool 站酷网站完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/zcool#!/usr/bin/env python# -*- coding: utf-8 -*-from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriv

2020-09-20 11:04:47 215

原创 python 获取企名科技数据

完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/qimingpian#!/usr/bin/env python# -*- coding: utf-8 -*-import execjsimport base64import jsonimport requestsheaders = { 'Accept': 'application/json, text/plain, */*', 'Content-

2020-09-20 11:04:16 535

原创 微信助手 itchat 小工具的使用

微信助手 itchat 小工具的使用完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/wechartrobot#!/usr/bin/env python# -*- coding: utf-8 -*-import osimport requestsimport itchatfrom itchat.content import *import timefrom apscheduler.schedulers.ba

2020-09-20 11:04:11 969

原创 python 爬取投融界专业平台

完整代码下载:https://github.com/tanjunchen/SpiderProject/blob/master/tourongzi/Spider.py#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsfrom fake_useragent import UserAgentimport pandas as pdfrom lxml import etreeimport reua = UserAgent().

2020-09-20 11:04:06 206

原创 python 爬取投资项目在线审批监管平台

完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/wwwtzxmgovcn投资项目在线审批监管平台# !/usr/bin/env python# -*- coding: utf-8 -*-import requestsimport pandas as pdimport randomimport timefrom requests.packages.urllib3.exceptions import Insec

2020-09-19 00:55:41 433

原创 python 爬取中国木材价格指数网

python 爬取中国木材价格指数网完整代码:https://github.com/tanjunchen/SpiderProject/tree/master/yuzhuprice#!/usr/bin/env python# -*- coding: utf-8 -*-from datetime import datetimefrom concurrent.futures.thread import ThreadPoolExecutorfrom multiprocessing impo.

2020-09-19 00:52:42 619

原创 python 爬取自如租房的租房数据,使用图像识别获取价格信息

python 爬取自如租房的租房数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ziru#!/usr/bin/python# -*- coding: UTF-8 -*-import reimport requestsimport pytesseractfrom PIL import Imagefrom selenium import webdriverfrom fake_useragent impor

2020-09-19 00:50:43 754

原创 python 爬取康美中药网站

python 爬取康美中药网站完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/kangmeizhongyao#!/usr/bin/env python# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport jsonimport pandas as pdimport datetimefrom kangmeizhongyao..

2020-09-19 00:47:41 333

原创 python 爬取中国邮政编码

源代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ZipCode中国邮政编码http://www.yb21.cn#!/usr/bin/env python# -*- coding: utf-8 -*-import jsonfrom lxml import etreefrom multiprocessing import Manager, cpu_count, Poolimport requestsfr.

2020-09-19 00:41:05 1469

原创 python 爬取中国房价行情网网站

代码下载https://github.com/tanjunchen/SpiderProject/tree/master/HouseWorldNewHouseHousePriceSpider.py#!/usr/bin/env python# -*- coding: utf-8 -*-import jsonimport timefrom multiprocessing import Pool, Manager, cpu_countfrom urllib.parse import urljo.

2020-09-19 00:37:13 745

原创 Python 百度百科分布式爬虫案例

控制端:ControNode:DataOutPut.py#!/usr/bin/python#-*-coding:UTF-8-*-importcodecsimporttimeclassDataOutPut(object):def__init__(self):self.filepath='baike_%s.html'%(time.strftime("%Y_%m_%d_%H_%M_%S",time.localti...

2020-09-19 00:12:16 223

原创 参与 Kubernetes 等开源社区

# 开源社区***[借助开源项目,学习软件开发](https://github.com/zhuangbiaowei/learn-with-open-source)***## 介绍[百度百科] 开源社区又称开放源代码社区,一般由拥有共同兴趣爱好的人所组成,根据相应的开源软件许可证协议公布软件源代码的网络平台,同时也为网络成员提供一个自由学习交流的空间。由于开放源码软件主要被散布在全世界的编程者所开发,开源社区就成了他们沟通交流的必要途径,因此开源社区在推动开源软件发展的过程中起着巨大的作用。在

2020-09-18 23:35:22 708

Linux 内核

Linux内核代码分析源码

2016-06-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除