自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 中文分词

中文分词常用的库–jieba一、安装pip install jieba 或者去这里下载安装二、使用使用手册参见这里 登陆不了可以看这里 结果如图:

2017-11-29 13:39:39 285

转载 【转】中文分词-结巴jieba手册

jieba“结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documentation.特点支持三种分词

2017-11-29 13:38:02 4800 1

翻译 《集体智慧编程》数学公式

这篇博客的目的主要是为了记录这些公式,取自原书附录B。 1.欧几里得距离(Euclidean Distance) 用途:计算距离,衡量相似度 公式: 代码实现:def euclidean(p, q): sumSq = 0.0 #将差值的平方累加起来 for i in range(len(p)): sumSq += (p[i] - q[i]) **

2017-11-21 14:33:46 386

转载 爬虫学习--豆瓣top250

最近在学习爬虫技术,在网上找了一些资料,也找到了一些例子,但找到的例子是基于python2的所以就改成了python3的,而且加了一个将电影的评分也打印出来的语句,话不多说,上代码:#!/usr/bin/python# -*- coding: utf-8 -*- #import requests,sys,refrom bs4 import BeautifulSoup#reload(sys)#

2017-11-20 15:30:43 449

原创 python 中 and 和 or 的用法

在看《集体智慧编程》第九章,对从Facebook上爬来的数据进行分析时有这样一条语句让我很困惑。 male1 = (data1['gender'] == 'Male') and 1 or 0 male2 = (data2['gender'] == 'Male') and 1 or 0咋一看,有点晕,就上网查了下,现将查到的知识记录下来。python 中and和or

2017-11-06 14:34:49 15469

原创 《集体智慧编程》第九章

1.P210 函数scaledata()在运行时会报错:AttributeError: 'list' object has no attribute 'data'这是由于函数scaledata()中的对数据进行缩放处理的函数的输入d是一个list,而不是我们最开始定义的matchrow类,所以是没有data方法的。怎么修改呢?其实很简单,把.data去掉就行了,即修改后的scaleinput()函

2017-11-02 14:57:56 467

《解决问题最简单的办法》

当遇到困难时,你该怎么做?本书旨在交给你一些解决问题的方法。

2018-03-16

python的中文分词库smallseg

python的中文分词库有多个,jieba、thulac都可以在GitHub上下载到,但是smallseg需要在code.google上下载,所以只上传了smallseg

2018-01-03

机器学习实战PDF

本文档为《Machine Learning in Action》中文版PDF,是影印版,但不影响阅读,配套资源也已经上传,在另外一个资源里,最后请大家支持正版。

2017-09-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除