2017年10月_li_huifei

翻译 openCV中的机器学习算法

本文还是对网上openCV教程中例程的注释和修改。openCV里面封装了不少利用了机器学习算法的函数，下面代码完成了对他们的使用。#K近邻分类算法import cv2import numpy as npimport matplotlib.pyplot as plttrainData = np.random.randint(0,100,(25,2)).astype(np.float32

2017-10-26 16:54:25 2154

原创利用pandas实现一个小需求

接到了一个小需求，手上有某应用8月和9月的用户信息，希望能算出8月新注册用户的留存率。即计算在8月注册的用户有多少比例在一个月内又一次使用了该应用。并返回每个城市每天的用户留存率。因为对pandas中dataframe的操作还不熟悉，dataframe的索引又比较鸡龟，所以程序里用了很多不必要的遍历和循环，代替了本来用dataframe可以快速完成的操作，因此程序效率不高，但是基本完成了需求，

2017-10-26 16:42:52 414

翻译 openCV库cv2的使用

网上可以找到python的openCV库的英文教程，本文对其中的部分实例进行了实现和注释，同时针对cv2这个库更改了原来程序中一些会报错的地方。#原程序是像草稿一样写在 jupyter notebook里的，方便分cell运行测试，现在就直接贴进来不做修改了。import cv2import numpy as np# 读取一张照片img = cv2.imread('8.jpg')

2017-10-25 22:29:18 17603 1

转载基于贝叶斯算法的拼写检查器

涉及到了对整段文字的机器学习，通过学习根据词频计算每个单词的先验概率，在输入一个非正确的单词后选择编辑距离最近先验概率最高的词作为结果。import re,collectionsdef words(text):#取出学习样本中的词 return re.findall('[a-z]+',text.lower())def train(features): model = co

2017-10-25 22:22:00 655

原创梯度下降回归

这里比较了使用梯度下降和不适用梯度下降对于模型预测效果的影响。不使用梯度下降时，在可能的区间内对参数进行遍历，寻找最合适的参数，效果不够理想。使用梯度下降的方法以后速度和预测效果都得到了提升。本来想在最后加上对预测结果的可视化显示，可惜并没有成功。数据可视化方面还是需要再多学习一下。import matplotlib.pyplot as pltimport numpy as np

2017-10-25 22:15:54 631

原创线性回归算法实现

先是简单的线性回归，原理公式推导就不多写了，直接上代码喽。定义了一个线性回归的类，里面包含了用于训练回归算法的函数fit，和用于预测的函数predict。import matplotlib.pyplot as pltimport numpy as npclass LinearRegression():#一维线性回归 def __init__(self):

2017-10-25 22:09:19 576

原创 PCA主成分分析

from PIL import Image from numpy import *def centring(X):#中心化算法 mean_X = X.mean(axis = 0)#按列求每个特征的均值 X = X - mean_X return Xdef pca(X):#分析算法 data_num,dim = X.shape() X = centr

2017-10-17 16:15:50 403

原创多分类Fisher线性判别算法

Fisher线性判别法也即FLD实在PCA降维的基础上再进一步考虑样本间的信息。算法目标是找到一个投影轴，使各分类的类内样本在投影轴上的投影间距最小，同时样本间的投影间距最大。原理不难，公式推导遍地都是，尽管看不太懂吧..但是掌握核心几个公式以后就不妨碍我们用程序来实现它。但是网上的例子多数是基于二分类的，那么对于多类别的样本如何使用FLD判别呢，这个问题没有太多的论述。所以想出了如下的办法去

2017-10-17 16:00:04 11930 1

原创 FCM聚类算法

之前提到了K均值算法，多数讨论认为K均值与硬C均值（HCM）算法本质相同。在HCM的基础上加入了对聚类簇的模糊划分，引入了隶属度来提升算法性能。import copy,math,random,time,sysimport matplotlib.pyplot as pltimport matplotlib.animation as animationimport decimalMAX

2017-10-11 19:39:39 1852

原创手动登录版微博爬虫

之前的贴吧爬虫并不十分费力的原因是贴吧不需要登录，或者说在只需要爬取作者以及标题时，以游客身份进入贴吧就足够了。但是当我们想做一个用于爬取微博搜索结果的爬虫时，问题出现了。根据微博的机制，游客身份的权限只能查看搜索结果的前几条，不能查看完整的搜索结果，这里就必须登录了。其实登录貌似一直是爬虫的大问题，各种网站也针对爬虫做了很多防爬的措施，所以要实现完全自动登录十分的复杂。所以立足于‘解决问题就

2017-10-10 16:27:02 2035

原创 k均值聚类算法

暂时还没有运算结果和数据可视化的程序。关于数据可视化后面单独写一篇笔记好了..

2017-10-10 16:22:51 589

原创爬虫抓取百度贴吧帖子标题及作者

哈哈

2017-10-04 18:10:44 799

li_huifei的博客