一.2019/07/01
01.jupyter notebook常用快捷键:https://blog.csdn.net/qq_38640439/article/details/81143836
https://www.cnblogs.com/sui776265233/p/9759303.html
02.用于outputs的交付软件:nginx
03.Web服务器:
Web服务器一般指网站服务器,是指驻留于因特网上某种类型计算机的程序,可以向浏览器等Web客户端提供文档,也可以放置网站文件,让全世界浏览;可以放置数据文件,让全世界下载。目前最主流的三个Web服务器是Apache、 Nginx 、IIS。
WEB服务器也称为WWW服务器、HTTP服务器,其主要功能是提供网上信息浏览服务。Unix和Linux平台下常用的服务器有Apache、Nginx、Lighttpd、Tomcat、IBM WebSphere等,其中应用最广泛的是Apache。而Window NT/2000/2003平台下最常用的服务器是微软公司的IIS。
Nginx在反向代理、Rewrite规则、稳定性、静态文件处理、内存消耗等方面,表现出了很强的优势,可见选用Nginx代替传统的Apache服务器,将会获得多方面的性能提升。(https://blog.csdn.net/apeopl/article/details/80769910)
04.linux常用操作指令:https://blog.csdn.net/lv_shijun/article/details/52537866
mkdir(生成文件夹);rm -rf(删除文件夹);df -h;rz(上传);sz(下载);whereis XX(快速跳转到指定文件)
05.nginx配置安装:https://www.cnblogs.com/wyd168/p/6636529.html
https://www.cnblogs.com/wyd168/p/6636529.html
首先下载安装pcre:ftp://ftp.csx.cam.ac.uk/pub/software/programming/pcre/
然后下载安装nginx:http://nginx.org/en/download.html
06.nginx的启动、停止等操作:https://www.cnblogs.com/kenshinobiy/p/9118010.html
启动nginx:./usr/local/nginx/sbin/nginx ,访问nginx(ip地址为:192.168.100.100,端口号为:80)
停止nginx:nginx -s stop
重启nginx:nginx -s reload
07.nginx修改默认端口号的方法:https://blog.csdn.net/qq_37372909/article/details/79958381
直接whereis nginx;然后cd到nginx.conf;然后cd conf;sz nginx.conf;用记事本打开并修改listen;保存然后rz上传即可。
08.nginx的基本操作:https://www.cnblogs.com/taiyonghai/p/6728707.html
启动
[root@localhost ~]# /usr/local/nginx/sbin/nginx
停止/重启
[root@localhost ~]# /usr/local/nginx/sbin/nginx -s stop(quit、reload)
命令帮助
[root@localhost ~]# /usr/local/nginx/sbin/nginx -h
验证配置文件
[root@localhost ~]# /usr/local/nginx/sbin/nginx -t
配置文件
[root@localhost ~]# vim /usr/local/nginx/conf/nginx.conf
杀进程
[killall -9 nginx]
09.查看端口使用的命令:netstat -ltunp
10.pandas将多列文本拼接成单列文本:https://www.jianshu.com/p/c1d99d14603d
#自动拼接两列
data['latitude']=data['latitude'].astype(str)
data['longitude']=data['longitude'].astype(str)
data['LatLon']=data['latitude'].str.cat(data['longitude'],sep=',')
11.pandas 大文本的分批读写:https://blog.csdn.net/qq_36330643/article/details/76048324
12.python tqdm联合pandas使用关键点:https://geopy.readthedocs.io/en/stable/
需要改写为progress_apply才可正常显示!
13. python正则表达式匹配判断字符串都为小写:(re.search(
'^[a-z]+$'
, s1)
):https://www.cnblogs.com/CodeTracker/p/4834723.html
同样,判断字符串是否全为大小写字母和'(上引号)组成:(ans=re.search(r"[a-zA-Z\']+$",s))(+$表示匹配到字符串的末尾)
二.2019/07/02
01.新需求:将地理位置标准化,即寻找类似相应的全球标准化方法:http://www.geonames.org/
02.删除含有或部分含有nan的行:https://blog.csdn.net/calorand/article/details/53742290
03.pandas统计某列某元素出现频数时,需要先转换为list:https://blog.csdn.net/wendaomudong_l2d4/article/details/83039724
04.pandas判断各种类型的空值:https://blog.csdn.net/weixin_39750084/article/details/81750185
三.2019/07/03(完善批量爬取代码)
01.geopy中文版:https://www.osgeo.cn/geopy/
02.python偏函数的用法:https://blog.csdn.net/handsomekang/article/details/9712125
首先,我们需要简单了解下偏函数的作用:和装饰器一样,它可以扩展函数的功能,但又不完成等价于装饰器。通常应用的场景是当我们要频繁调用某个函数时,其中某些参数是已知的固定值,通常我们可以调用这个函数多次,但这样看上去似乎代码有些冗余,而偏函数的出现就是为了很少的解决这一个问题(http://www.imooc.com/article/255115)。
03.通过python的偏函数functools.partial解决geopy中批量逆编码时,无法设置geolocator默认language参数的问题:https://www.osgeo.cn/geopy/
04.python之retry装饰器:https://spaces.ac.cn/archives/3902
05.pandas使用drop_duplicates去除DataFrame重复项:https://blog.csdn.net/qq_28811329/article/details/79962511
data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
06.初步完成非英文city_name爬取代码,等待进一步将city_name标准化(2019/07/03/17:48)。
07.内网如何在github上传.py文件和jupyter notebook文件(.ipynb):上传.py文件直接复制粘贴即可;上传.ipynb文件需要先用nodepadd++打开,然后copy,再粘贴。
四.2019/07/04(寻找国际城市名标准库)
01.全球国家标准代码:ISO 3166-1:https://www.heweather.com/blog/iso-3166
02.通过qq国际版获取标准!英文版本:安装QQ国际版,找到对应文件(如下图):https://blog.csdn.net/chinassj/article/details/80236722
code都是按照ISO3166标准写的,极易导入数据库(https://blog.csdn.net/u010264560/article/details/52873052)。