自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 百万级地址两两比较相似度,用pyspark实现

1 把地址分段,省、市、区、县、街道2 按照省市区县街道reduceBykey3不同省市区县街道的地址比较计算相似度4将比较的结果返回值分成多个字段并写入hive图片部分将 计算相似度的代码没有加进来,读者可自行选取编辑距离、最长公共子串等方式基于业务选取合适的相似度算法。地址分段部分也没有,本文重点在大数据的处理过程,试了多种方式,由于资源不够代码内存溢出,最后调试完最终版如下。

2023-01-10 10:43:19 678

原创 python生成器分批次从高斯数据库读取亿级数据,通过pyspark写入hive

2023-01-10 10:18:50 353

原创 python连接高斯数据库

使用python的psycopg2包,单机连接高斯数据库,代码中用到了python的生成器。分批次返回,避免一次读取高斯数据库没错呀溢出。

2023-01-10 10:00:46 1257

原创 pip 安装报错**

pip 安装报错错误C:\Users\lixh>pip install grpcioTraceback (most recent call last):File “C:\lixinhua\anaconda3\Scripts\pip-script.py”, line 6, in from pip._internal import mainModuleNotFoundError: N...

2020-03-30 16:11:55 311

原创 crontab 的错误

早上来 ,产品说定时任务没有跑,然后上了跳板机执行crontab -l 发现 ,定时任务都没有了然后联系到运维,看有没有人操作,定时任务所在主机,给运维发了,我登陆主机的ip ,经检查只有我在操作,所以联想到有没有误操作,记得执行过 crontab找到原因了,还好之前有备份,火速恢复。...

2019-06-28 11:42:31 183

原创 cenos7 下 MySQL 的安装*

下载mysql的repo源wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm2 安装mysql-community-release-el7-5.noarch.rpm包sudo rpm -ivh mysql-community-release-el7-5.noarch.rpm安装这个包后,会获得两个...

2019-01-23 21:48:27 117 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除