自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 python程序实现最大限度突破高德地图爬虫限制,包括.exe文件的编译,提供最大限度爬虫高德地图poi思路

CSDN有很多关于高德地图poi爬取的文章,python代码也是无数,真正能实现我们需要的功能的代码和文章却寥寥无几。本文将从高德地图api获取开始讲起,希望能帮助大家真正理解高德地图到底能为我们的工作和学习做些什么,其次,本文从实例出发,为大家讲解利用高德地图给我们提供的poi编码和城市编码,通过python3.7和pyinstaller编写一个可执行exe程序文件,以方便我们在需要进行爬取时可以不用依赖python环境,直接执行exe文件就可进行爬取。

2019-08-25 22:22:24 4219 2

原创 python爬取flash页面的返回数据(flex技术、amf格式、charles抓包)

flash页面的返回数据,无法从网页源代码中查看到数据,这种页面的爬取需要借助一个工具——charles,通过它来查看amf。这里用到一个第三方库pyamf,安装方式:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple py3amf本文以浙江省地表水水质自动监测数据为例,爬取浙江省所有监测点的五项水质信息,讲述这种传统flash页面数据的爬取过程和注意事项。一、分析网页浏览器查看下面是这个网站的页面和源代码(注意圈出来的部分):浏

2020-06-23 11:26:52 4594 3

原创 python+selenium+Chrome(无头版)爬取国家地表水水质自动监测实时数据发布系统(修改版)——动态网页爬虫

2020-06-18 15:50:42 3952 2

原创 Django开发注册登录系统笔记和系统运行流程(含避坑策略)

本文参考:实战一:基于Django2.2可重用登录与注册系统文章不做具体的操作,给大家一些分享一些我遇到的坑和解决方式。一、系统结构mysite工程文件根目录下:1、my_app是我的创建的app。2、mysite和根目录名称一样,合法的,请忽略。3、manage.py使我们开启服务器的基础,只需要在mysite工程文件根目录下按住shift,右键,打开cmd,输入python manage.py runserver即可。每次更改都需要重新启动,不然可能会报错,这种事情我遇到过无数次。man

2020-06-11 11:10:17 395

原创 批量下载全国县级行政区划geojson格式数据,将下载的geojson数据批量转为shapefile格式,在arcgis中可视化

一、数据来源阿里云提供了数据下载接口,我们可以在下面这个网站下载到各级别行政区划geojson格式的数据,精确到县级。地址二、数据分析由上图,我们可以看到:地名:”武汉市“ adcode:“420100”发现这个代码其实就是行政区划代码,网上随处可见JSON API:https://geo.datav.aliyun.com/areas_v2/bound/420100.jsonJSON API( 包含子区域):https://geo.datav.aliyun.com/areas_v2/bo

2020-06-08 19:20:30 9384 4

原创 利用python的geopandas实现geojson数据的可视化(含geopandas安装和问题解决方式)

一、什么是geojson?GeoJSON是一种对各种地理数据结构进行编码的格式,基于Javascript对象表示法的地理空间信息数据交换格式。GeoJSON支持点、线、面、多点、多线、多面和几何集合等几何类型。GeoJSON里的特征包含一个几何对象和其他属性,特征集合表示一系列特征。本质上,geojson还是json,是一个字符串数据格式。像下面这样:{ "type": "Polygon", "coordinates": [ [ [100.0, 0.0], [101.0, 0.0], [10

2020-06-08 17:33:25 11602 1

原创 python实现Excel数据的批量(546个数据文件)合并及windows批量改名(附源代码)

一、你们有没有遇到这种情况?546个excel文件需要合并,怎么办?一个一个复制?事件来不及!还是。。。想 想 别 的 招!人 生 苦 短,我 有 python!这个问题如果使用python做批处理,会有意想不到的效果!往下看。。。。。。二、基于windows系统的文件命名批处理程序实现固然方便,但也是很笨拙的,我们需要对文件进行批处理,使得命名具有一定的规则,刚好,window...

2019-09-13 19:00:53 1474 1

原创 python实现爬取12306所有站点及其编码信息(附源代码)!

一、代码(复制运行即可)import reimport jsonimport requestsimport pandas as pdfrom pprint import pprint#JS,这个用浏览器打开会呈现一堆看不懂的文字,需要用正则表达式对其解析url = 'https://kyfw.12306.cn/otn/resources/js/framework/station_na...

2019-09-13 10:53:11 3030 2

原创 python实现“快递价格查询系统”的编写

一、代码--author--张俊杰@Nick#系统提示print("欢迎来到快递系统!")#死循环while 1==1:#简单交互,键入值 weight=int(input("请输入重量(千克): ")) num=input("请输入地点编号(1.其它 2.东三省/宁夏/青海/海南 3.新疆/西藏 4.港澳台/国外):")#定义参数 p=0#if判断,判断重量,3公斤以...

2019-09-08 13:51:50 5008

原创 用python写个翻译小程序——死循环程序

有道词典import urllibfrom urllib import requestimport timeimport reheader={"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}u...

2019-09-01 21:06:42 464

原创 python+selenium+phantomJS爬取国家地表水水质自动监测实时数据发布系统——动态网页爬虫

关于phantomjs介绍PhantomJS是一个为自动化而生的利器,它本质上是一个基于webkit内核的无界面浏览器,并可使用JavaScript或CoffeeScript进行编程。由于没有界面,它的使用就有点像curl, lynx之类的命令行式文本浏览器。但PhantomJS远不是文本浏览器那么简单,由于它是基于webkit内核的,因此拥有的完善的Javascript解析、页面渲染功能,你...

2019-08-31 16:25:50 6475 10

原创 Python实现淘宝商品数据爬取——静态网页爬虫(仅供学习,切勿无限制爬取)

一、关于淘宝网淘宝网是亚太地区较大的网络零售、商圈,由阿里巴巴集团在2003年5月创立。淘宝网是中国深受欢迎的网购零售平台,拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已经超过了8亿件,平均每分钟售出4.8万件商品。二、我们的目标是什么?1、爬取淘宝页面某类商品的价格、名称、店家地址、交易数量;2、以列表的形式将每一个商品的数据存入.csv文件中;3、实现...

2019-08-27 15:28:59 4799 3

shapely-pyproj-gdal-fiona-cp35-win64.rar

shapely-pyproj-gdal-fiona-cp35-win64.rar

2020-06-08

编写python程序实现最大限度突破高德地图爬虫限制

1、由于高德地图有20*45条poi的限制,所以每次能爬取45页,需要尽可能的缩小爬取范围,才能尽可能多的获取poi数据; 2、所以我们最应该考虑的问题是缩小范围,利用程序对城市内每一个区县行政区分别进行爬虫,以获取最大poi数量;

2019-08-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除