- 博客(6)
- 收藏
- 关注
原创 百万级地址两两比较相似度,用pyspark实现
1 把地址分段,省、市、区、县、街道2 按照省市区县街道reduceBykey3不同省市区县街道的地址比较计算相似度4将比较的结果返回值分成多个字段并写入hive图片部分将 计算相似度的代码没有加进来,读者可自行选取编辑距离、最长公共子串等方式基于业务选取合适的相似度算法。地址分段部分也没有,本文重点在大数据的处理过程,试了多种方式,由于资源不够代码内存溢出,最后调试完最终版如下。
2023-01-10 10:43:19 678
原创 python连接高斯数据库
使用python的psycopg2包,单机连接高斯数据库,代码中用到了python的生成器。分批次返回,避免一次读取高斯数据库没错呀溢出。
2023-01-10 10:00:46 1257
原创 pip 安装报错**
pip 安装报错错误C:\Users\lixh>pip install grpcioTraceback (most recent call last):File “C:\lixinhua\anaconda3\Scripts\pip-script.py”, line 6, in from pip._internal import mainModuleNotFoundError: N...
2020-03-30 16:11:55 311
原创 crontab 的错误
早上来 ,产品说定时任务没有跑,然后上了跳板机执行crontab -l 发现 ,定时任务都没有了然后联系到运维,看有没有人操作,定时任务所在主机,给运维发了,我登陆主机的ip ,经检查只有我在操作,所以联想到有没有误操作,记得执行过 crontab找到原因了,还好之前有备份,火速恢复。...
2019-06-28 11:42:31 183
原创 cenos7 下 MySQL 的安装*
下载mysql的repo源wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm2 安装mysql-community-release-el7-5.noarch.rpm包sudo rpm -ivh mysql-community-release-el7-5.noarch.rpm安装这个包后,会获得两个...
2019-01-23 21:48:27 117 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人