- 博客(51)
- 资源 (1)
- 收藏
- 关注
原创 聚类算法之——K-Means++聚类算法
聚类算法之——K-Means++聚类算法轮盘法基本思想:各个个体被选中的概率与其适应度大小成正比;步骤计算出群体中 每个个体的适应度f(i=1,2,…,m),mf(i=1,2,\dots,m),mf(i=1,2,…,m),m为群体大小;计算出每个个体被遗传到下一代群体中的概率P(xi)=f(xi)∑j=1Mf(xj)P(x_i)=\frac{f(x_i)}{\sum_{j=1...
2020-03-10 22:49:17
6965
1
原创 高德地图地址和经纬度的转换
高德地图地址和经纬度的转换1. 地址转经纬度import requestsdef addressToLocation(address): """ 将地址转换为经纬度 :param address: 地址 :return: 经度和维度 """ # 在高德地图开发者平台(https://lbs.amap.com/)申请的key,需要替换为自己的k...
2020-03-08 10:33:34
3623
原创 聚类算法之——二分K-Means算法
聚类算法之——二分K-Means算法为克服K-Means算法收敛于局部最小值问题,提出了二分K-Means算法二分K-Means算法首先将所有点作为一个簇,然后将该簇一分为二。之后选择其中一个簇继续进行划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值。上述基于SSE的划分过程不断重复,直到得到用户指定的簇数目为止。步骤将所有点看成一个簇;对每个簇,进行如下操...
2020-03-08 10:06:17
4115
1
原创 python散点图绘制scatter
plt.scatter()发现scatter不仅能画散点,还能调节点的大小,做成气泡图,所以自己准备写个总结,记录下!函数:matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, v...
2020-03-07 23:03:57
1006
原创 聚类算法之——K-Means算法
聚类算法之——K-Means算法聚类算法属于无监督学习,它将相似的对象归到同一个簇中。K-Means算法是聚类算法中最常用到算法;1. 预备知识点距离计算闵可夫斯基距离点x=(x1,x2,…,xn)和y=(y1,y2,…,yn)x=(x_1,x_2,\dots,x_n)和y=(y_1,y_2,\dots,y_n)x=(x1,x2,…,xn)和y=(y1,y2,…,yn)之间的...
2020-03-05 21:51:08
1253
原创 XGBoost多分类预测
XGBoost多分类预测1. 数据预处理对缺失值进行填充根据业务增加衍生变量,比如占比、分级化、TOP打横等等根据业务删除相应的指标对离散型的指标进行one-hot序列编码2. 模型选择可以进行多分类预测的模型有逻辑回归、决策树、神经网络、随机森林、xgboost,发现效果排名靠前的依次是XGBoost、随机森林、决策树3. 模型调用通过调用python相关包,对XGBo...
2020-02-18 21:08:26
5239
1
原创 中文分词算法之--最大匹配法
中文分词算法之–最大匹配法 前段时间研究了如何用分词工具进行分词,但是分词中涉及的一些算法,不太了解,所以,准备这段时间专攻分词算法原理,大家有补充,或者建议,欢迎留言。1. 最大匹配法(Maximum Matching) 最大匹配法是指以词典为依据,取词典中最长词长度作为第一次取字数量的长度,在词典中进行扫描。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7...
2020-01-18 22:49:42
2948
1
原创 python+sqlalchemy 数据库的读取和写入
Python+ SQLAlchemy 数据库的读取和写入 SQLAlchemy是Python中最有名的ORM(Object Relational Mapping,对象关系映射)框架之一,该框架建立在数据库API之上,使用关系对象映射进行数据库操作,为高效和高性能的数据库访问设计 ,支持多数据库,如mysql、Oracle等。环境操作系统:Windows10python:3.6安...
2019-12-21 20:26:23
4539
原创 通过中文分词获取关键词
通过中文分词获取关键词 需要对大量中文文本进行分词,获取词频较高的关键词,所以学习研究了jieba、thulac和pkuseg三种python分析工具和官方文档。在这个过程中,建立了用户自定义的词典和停用词。现将中文分词这部分进行总结,分享给大家,希望对大家能有帮助。环境说明系统:Win10软件:python31. 官方链接文档 对于分词不太了解的同学,建议先去看看这三个链接...
2019-12-08 21:23:09
2015
1
原创 python+Pysesseract+Tesseract-OCR中文图像识别
python+Pysesseract+Tesseract-OCR中文图像识别最近在研究中文图像识别的内容,发现需要安装一些软件,尤其是要下载并安装Tesseract-OCR,安装后遇到了很多bug(坑),一直运行不了代码,终于查了多好资料,搞定了。如果运行脚本报错,一定是你忘记重启电脑了。为了大家安装调试能顺利,避免这些坑,决定写一篇文章来介绍整个流程。如果某些地方不明白,可以留言,一一为大家...
2019-11-06 22:24:04
925
原创 Windows系统下Typora的安装和语法
Windows系统下Typora的安装和语法最近在用这个软件,亲测确实觉得这个软件比较好用,所以写下这篇文章,分享给大家Typora 是一款极致简洁的 markdown 文本编辑器。 支持即时渲染技术 ,没有编辑工具栏!在快速文字排版以及代码编辑方面的效率是显而易见的,自己感觉比MarkdownPad好用。下载安装下载链接:https://www.typora.io/#windows...
2019-11-06 22:15:57
1141
jieba分词获取词频top10关键词.py
2019-12-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅