自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (1)
  • 收藏
  • 关注

原创 聚类算法之——K-Means++聚类算法

聚类算法之——K-Means++聚类算法轮盘法基本思想:各个个体被选中的概率与其适应度大小成正比;步骤计算出群体中 每个个体的适应度f(i=1,2,…,m),mf(i=1,2,\dots,m),mf(i=1,2,…,m),m为群体大小;计算出每个个体被遗传到下一代群体中的概率P(xi)=f(xi)∑j=1Mf(xj)P(x_i)=\frac{f(x_i)}{\sum_{j=1...

2020-03-10 22:49:17 6965 1

原创 高德地图地址和经纬度的转换

高德地图地址和经纬度的转换1. 地址转经纬度import requestsdef addressToLocation(address): """ 将地址转换为经纬度 :param address: 地址 :return: 经度和维度 """ # 在高德地图开发者平台(https://lbs.amap.com/)申请的key,需要替换为自己的k...

2020-03-08 10:33:34 3623

原创 聚类算法之——二分K-Means算法

聚类算法之——二分K-Means算法为克服K-Means算法收敛于局部最小值问题,提出了二分K-Means算法二分K-Means算法首先将所有点作为一个簇,然后将该簇一分为二。之后选择其中一个簇继续进行划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值。上述基于SSE的划分过程不断重复,直到得到用户指定的簇数目为止。步骤将所有点看成一个簇;对每个簇,进行如下操...

2020-03-08 10:06:17 4115 1

原创 python散点图绘制scatter

plt.scatter()发现scatter不仅能画散点,还能调节点的大小,做成气泡图,所以自己准备写个总结,记录下!函数:matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, v...

2020-03-07 23:03:57 1006

原创 聚类算法之——K-Means算法

聚类算法之——K-Means算法聚类算法属于无监督学习,它将相似的对象归到同一个簇中。K-Means算法是聚类算法中最常用到算法;1. 预备知识点距离计算闵可夫斯基距离点x=(x1,x2,…,xn)和y=(y1,y2,…,yn)x=(x_1,x_2,\dots,x_n)和y=(y_1,y_2,\dots,y_n)x=(x1​,x2​,…,xn​)和y=(y1​,y2​,…,yn​)之间的...

2020-03-05 21:51:08 1253

原创 XGBoost多分类预测

XGBoost多分类预测1. 数据预处理对缺失值进行填充根据业务增加衍生变量,比如占比、分级化、TOP打横等等根据业务删除相应的指标对离散型的指标进行one-hot序列编码2. 模型选择可以进行多分类预测的模型有逻辑回归、决策树、神经网络、随机森林、xgboost,发现效果排名靠前的依次是XGBoost、随机森林、决策树3. 模型调用通过调用python相关包,对XGBo...

2020-02-18 21:08:26 5239 1

原创 中文分词算法之--最大匹配法

中文分词算法之–最大匹配法​ 前段时间研究了如何用分词工具进行分词,但是分词中涉及的一些算法,不太了解,所以,准备这段时间专攻分词算法原理,大家有补充,或者建议,欢迎留言。1. 最大匹配法(Maximum Matching)​ 最大匹配法是指以词典为依据,取词典中最长词长度作为第一次取字数量的长度,在词典中进行扫描。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7...

2020-01-18 22:49:42 2948 1

原创 python+sqlalchemy 数据库的读取和写入

Python+ SQLAlchemy 数据库的读取和写入​ SQLAlchemy是Python中最有名的ORM(Object Relational Mapping,对象关系映射)框架之一,该框架建立在数据库API之上,使用关系对象映射进行数据库操作,为高效和高性能的数据库访问设计 ,支持多数据库,如mysql、Oracle等。环境操作系统:Windows10python:3.6安...

2019-12-21 20:26:23 4539

原创 通过中文分词获取关键词

通过中文分词获取关键词​ 需要对大量中文文本进行分词,获取词频较高的关键词,所以学习研究了jieba、thulac和pkuseg三种python分析工具和官方文档。在这个过程中,建立了用户自定义的词典和停用词。现将中文分词这部分进行总结,分享给大家,希望对大家能有帮助。环境说明系统:Win10软件:python31. 官方链接文档​ 对于分词不太了解的同学,建议先去看看这三个链接...

2019-12-08 21:23:09 2015 1

原创 python+Pysesseract+Tesseract-OCR中文图像识别

python+Pysesseract+Tesseract-OCR中文图像识别最近在研究中文图像识别的内容,发现需要安装一些软件,尤其是要下载并安装Tesseract-OCR,安装后遇到了很多bug(坑),一直运行不了代码,终于查了多好资料,搞定了。如果运行脚本报错,一定是你忘记重启电脑了。为了大家安装调试能顺利,避免这些坑,决定写一篇文章来介绍整个流程。如果某些地方不明白,可以留言,一一为大家...

2019-11-06 22:24:04 925

原创 Windows系统下Typora的安装和语法

Windows系统下Typora的安装和语法最近在用这个软件,亲测确实觉得这个软件比较好用,所以写下这篇文章,分享给大家Typora 是一款极致简洁的 markdown 文本编辑器。 支持即时渲染技术 ,没有编辑工具栏!在快速文字排版以及代码编辑方面的效率是显而易见的,自己感觉比MarkdownPad好用。下载安装下载链接:https://www.typora.io/#windows...

2019-11-06 22:15:57 1141

jieba分词获取词频top10关键词.py

通过jieba分词工具,载入自定义词典和停用词库,来获取词频高的关键词,本脚本只获取top10的关键词; 其中,停用词库是结合了目前很多常见停用库的合并;

2019-12-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除