seekerhit-CSDN博客

原创 pandas 透视表bug "InvalidIndexError: Reindexing only valid with uniquely valued Index objects"

执行以下语句：sbnew_feat.pivot_table(index=['prov_area'], columns=['city_tier'], aggfunc={'userid':'count'})报错信息如下：InvalidIndexErrorTraceback (most recent call last)<ipython-input-207-a25eda0ce42...

2019-09-12 10:51:32 3647

原创 pyspark的中文编码问题

环境：python2.7 pyspark 2.4.3用python读入一个字典，然后对spark SQL dataframe对中文做处理的时候，匹配不到，这个是中文编码问题。python2.x 可用utf-8编码，但是pyspark是用unicode编码的，所以涉及数据交互的时候必须用进行编码和解码;python2.x 的中文是utf-8编码，需要 x.decode("utf...

2019-08-02 15:11:23 6302

原创 Floyd 算法和非递归算法寻路

Floyd 算法是用于多源的最短路径的算法，给予动态规划的思想实现。Floyd 算法的最短路径的寻找需要借助递归函数，但是一些时候，递归函数无法使用。因此，我将其改为了非递归函数。非递归函数使用栈作为数据存储器，查询路径（即最短路径的所有中间节点，按序输出）。代码如下：注：以下代码使用Java和spark混合实现，其中flod函数实现了Floyd算法。另外两个函数分别

2017-05-22 15:11:04 1090

原创解决数据不平衡的smote算法简述，以及改进

首先说明：改进方案是本人原创，请尊重。其次，改进方案风险很大，请谨慎使用。首先说smote算法，样本本身就是在特征空间的一些点，所以该算法用于增加样本的方法就是在特征空间中两个同类点之间随机选取一个点，这个点就是一个新样本了，和另外两个点具有相同的类别。然后说一下smote算法的问题，首先样本不平衡会带来样本点的空间分布并不能符合真实分布，因此使用smote扩充样本集合时，

2016-11-24 16:10:16 20570 12

原创半监督的一点概述

简单写点关于半监督的内容半监督学习通常指的是半监督分类，事实上半监督还包括半监督聚类等。半监督的分类主要用于训练样本数量不足的情况，用于提升监督学习的效果。本质而言，更像是一种思想，而非具体算法。半监督聚类解决的问题是有限制条件的聚类，比如在聚类的时候，一些点必须在同一个簇中（或必须相连），即“must-link”；而一些点不能再同一个簇中（或不能相连），即“cannot-link”。

2016-11-24 15:29:05 968

原创半监督分类算法简述，self-trainning，co-trainning

本文主要就是随便谈谈自身对半监督算法的理解，这里主要谈半监督分类。首先是为什么使用半监督学习算法？一般而言，当训练数据量过少时，监督学习得到的模型效果不能满足需求，因此用半监督学习来增强效果。训练样本少，会导致两个问题，一方面是样本的分布不能真正代表真实数据的分布特征，另一方面是数据量过少不能满足训练学习的要求，“只能remember，不能learn”。这两个原因都会导致训练数据得

2016-11-24 15:18:18 23756

原创 3Sum leetcode第15题 Java代码

直接贴上原题网址：https://leetcode.com/problems/3sum/思路：先排序，将其变成一个升序序列，然后找到第一个不小于0 的元素的下标；三个元素和为0，必然有：第一个元素不大于0，最后一个元素不小于0.设定第一个元素nums[i] 从头开始，第三个元素nums[k] 从尾部开始，问题就是寻找第二个元素nums[j] 的开始位

2016-05-03 19:54:18 472

原创数据分类K—means 算法的python代码实现

k_means算法是用来进行数据分类的，尤其适用于相同维度数据集合的分类。形象来说，以2维平面为例，原始数据则可以看做是分布在其中的一些点，而分类则是需要找出一些中心点（可能不属于这些数据）将这些数据点分成一个个集合，如此便完成了分类。算法主要步骤为：1）选择 K 个起始的中心点2）按照欧拉距离最小的原则，将原始数据分类到这K个中心点形成的集合中3）重新计算这K 个中心点

2016-04-05 19:10:15 1758

原创网页排序 HITS算法的python实现

算法原理不在赘述，请参考：http://blog.csdn.net/hguisu/article/details/8013489将代码保存为.py格式，默认使用的数据是代码文件所在目录下data目录下的 pgr_data.txt 文件分别作为源数据输入。以上参数可以在源代码中修改，也可以使用命令行参数传入，参考以下启动方式：python hits.py pgr_data.txt

2016-03-26 19:05:55 5046 4

原创 PageRank算法的python实现

算法原理不在赘述，请参考：http://blog.csdn.net/androidlushangderen/article/details/43311943将代码保存为.py格式，默认使用的数据是代码文件所在目录下data目录下的 pgr_data.txt 文件分别作为源数据输入。以上参数可以在源代码中修改，也可以使用命令行参数传入，参考以下启动方式：python pagerank

2016-03-26 18:58:56 5369 2

原创朴素贝叶斯算法(Naive Bayes)算法的python实现含源代码

算法原理不在赘述，请参考：朴素贝叶斯分类算法将代码保存为.py格式，默认使用的数据是代码文件所在目录下data目录下的 bayes_train.txt 和bayes_test.txt 两个文件分别作为训练样例和测试样例。以上参数可以在源代码中修改，也可以使用命令行参数传入，参考以下启动方式：python bayes.py bayes_train.txt bayes_test

2016-03-26 15:53:10 10506

原创 KNN 算法的python实现迭代训练方式，将最近的测试样例作为训练样例扩大训练集

KNN算法的原理不在赘述，直接介绍源代码使用方式。将代码保存为.py格式，默认使用的数据是代码文件所在目录下data目录下的 knn_train.txt 和knn_test.txt 两个文件分别作为训练样例和测试样例，默认k_value=3。以上参数可以在源代码中修改，也可以使用命令行参数传入，参考以下启动方式：python knn.py train.txt test.txt 4命令后

2016-03-16 11:54:37 2761

原创 Python实现决策树算法 C4.5和ID3算法

本文以python语言实现了C4.5和ID3算法，默认为C4.5算法，若要使用ID3算法，将函数 entropy()最后的返回值改变一下即可，即注释掉C4.5那行代码，启用ID3那行代码即可。将源代码保存为python文件，命名为c45.py，最后一个参数为数据的路径，可自由设置，参考以下运行方式：python c45.py data.txt特别感谢：点击打开链接源代码

2016-03-15 23:22:12 2299

翻译 Constructing module maps for integrated analysis of heterogeneous biological networks

Constructingmodule maps for integrated analysis of heterogeneous biological networksDavidAmar and Ron Shamir*BlavatnikSchool of Computer Science, Tel Aviv University, Tel Aviv 69978, Israel

2016-03-13 19:59:23 1063

原创调用opencv库进行身份证号码识别主要流程

如题，就是对身份证拍照，处理相应照片，识别出身份证号码这里需要调用opencv库。opencv库包含了许多处理图像的函数，功能全面而且强大，兼容多种语言。如何配置可以自行搜索。主要流程如下：读取照片，转化为灰度图像；设置阈值，将灰度图像转化为2值图像（即黑白图）；将图像规范化，这个具体的size可以根据情况进行设定；图像膨胀，将规范化的2值图像进行，因为之前进行了规范化，

2016-01-20 11:53:26 11463

原创处理utf-8中文文本，程序莫名出错中断

由于中文使用utf-8编码时，编码可用的位数有限，所以并不能针对所有中文汉字进行编码。中文汉字大约有五六万个（具体我也不清楚），但是utf-8编码的中文汉字好像只有两万字左右，因此，大量比较生僻的汉字未能编码，所以，处理包含这些字符的文本时，可能出错，但是没有办法，直接删除掉那些语句就OK了。或者也可以将编码改为Unicode。

2016-01-18 18:44:27 718

原创人物关系抽取

人物关系抽取是实体关系抽取的一种情况。实际上是两个过程：命名实体识别和关系抽取。一般情况下，是给定一个文本，要求找出其中的人物实体（姓名），和它们之间的关系种类。需要判定的关系种类往往有很多种，需要判定是否是其中的一种，以及到底是哪一种。一般情况下，都会有训练数据和测试数据，二者的格式和内容主题不会相差多远。对于命名实体识别，可以使用CRF做，有工具可以调用；也可以使用汉语言处理包H

2016-01-18 18:21:29 6619

原创文本情感分析

给出一系列文本，判定它们的情感倾向性（positive or negative）。一般都会采用机器学习的算法，要求有训练数据和测试数据。处理训练数据得到一个model，使用它来处理测试数据，得出每个测试样例的结果。这里有几个细节需要注意：测试数据和训练数据尽量要是同一个主题，不要相差太远，不然会降低训练处的model的适用效果；训练数据中正例和负例的比例要尽可能平衡。主要的处理过程为：文本

2016-01-18 17:08:07 8030 2

seekerhit的博客