20 Newsgroup文本分类-基于sklearn

本项目聚焦于通过机器学习的方法来进行文本自动分类,采用的是有监督的学习,根据已经标注好类别的文本语料进行特征提取、建模、训练,进而对未知样本进行预测。可用于此场景的分类模型有很多,例如贝叶斯、决策树、SVM、深度学习等。本项目中将会重点尝试几个有代表性的模型,并对其应用效果进行对比分析。 使用的...

2018-07-28 12:03:07

阅读数 1393

评论数 0

数据分析案例之电影推荐

前言通过案例来学习数据分析的思路和练习相应分析工具,往往最有效的。本文用julia来进行全流程的探索和分析,以期达到既掌握分析思路,又练习了这一新兴的数据科学利器。同时,个性化推荐是个太大的topic,涉及的理论方法和实践非常多,本文有些地方会详细展开,有些则一笔带过。如无特殊说明,本文中所使用的...

2018-04-10 07:33:00

阅读数 4267

评论数 1

数据科学案例化学习(julia版本)

前言参考《数据科学实战手册》第2章中汽车燃油效率数据分析的过程,不过原书是用R来进行分析,这里我们通过julia来完成整个分析过程),同时我们也将会进行比原文进行更多的内容拓展, 并在文章中尽可能多地介绍julia进行数据操作的方法,以期达到既走完整个分析流程,又加深了大家对julia的深入了解。...

2018-04-10 07:31:12

阅读数 1152

评论数 1

数据科学工具箱之julia篇

julia是啥 julia 于2012年的情人节当天由几位MIT研究人员对外正式发布,所以这是一门非常年轻的语言,截至2018年1月份已经有超过180万的下载安装量[wikipedia]。它的定位是高效率地进行科学计算,其执行性能据说达到了C语言的级别,业界有句评价是: Walks lik...

2018-03-23 00:56:03

阅读数 1875

评论数 0

从爬取到展示,数据科学工具串联练手 第2篇

书接上回(文章 http://blog.csdn.net/a_step_further/article/details/79360613  使用了python去爬取微博评论消息,再使用spark做预处理,用R做可视化),这次再换个姿势练习一下,思路是相近的,换换工具练手的目标仍然是活跃下思维。任务...

2018-02-27 08:32:38

阅读数 135

评论数 0

从爬取到展示,数据科学工具串联练手

日常情况下,我们常常是从整洁的数据仓库表中读取数据,进行数据分析,但事实上,数据科学工作往往需要进行数据获取,预处理,分析,展示这样整个的流程。本文从一个实际的案例出来,将不同的分析工具串联起来(虽然仅用一种工具也能实现全流程工作,但不是本文的侧重点),目的是为了体现不同工具的特点和实际使用方法,...

2018-02-24 12:42:40

阅读数 173

评论数 0

编程题目练习-翻牌

题目: 有100张牌,依次写上1-100,按从小到大的顺序排列,初始时所有牌面向上。依次从第N张牌开始(N从2开始),每隔N-1张翻转牌面,直到无牌可翻。求最后所有背面朝上的数字。 思路: 如果一张牌被翻了奇数次,则是正面朝上;如果翻了偶数次,则是背面朝上。每张牌被翻转的次数,也就是...

2017-08-14 07:07:21

阅读数 480

评论数 0

回文寻找

题目:寻找一个大于10的最小正整数,使其本身、二进制转化值、八进制转化值,都是回文 暴力解法: #include #include #include using namespace std; string conv(int N, int jinzhi); template stri...

2017-08-10 22:31:11

阅读数 162

评论数 0

hadoop UDF-获取前N周的日期时间点

应用场景:获取前N周的日期,且需要指定星期值(如周一、周二)。例如,获取前面第N个星期三当天的日期 输入:1. 初始化日期,即从哪个日期值开始往前查询(支持 yyyyMMdd, yyyy-MM-dd, yyyy-MM-dd hh:mi:ss);2. 周区间的个数;3. 指定星期值(仅限于缩写 &...

2017-07-10 16:56:19

阅读数 501

评论数 0

排序算法练习-二分法

使用插入法来对一个数组进行排序,在寻找要插入的位置时,使用二分法。代码如下: #include #include using namespace std; int randN(int lower, int upper); void printVector(vector a); int ge...

2017-02-26 13:57:46

阅读数 239

评论数 0

使用tensorflow对Mnist数据集进行字体识别

上代码: #!/usr/bin/env python #coding:utf-8 import tensorflow import pandas as pd import skflow train = pd.read_csv('~/Mnist/train.csv') X_train = tr...

2017-02-07 22:59:17

阅读数 681

评论数 0

算法学习笔记之插入排序

用插入法进行排序 练习步骤: 1. 先生成一个随机的数组 2. 用插入法进行排序 #include #include #include using namespace std; int findInsertPlace(vector v, int value); int ...

2017-02-01 19:50:15

阅读数 245

评论数 0

算法学习笔记之寻找第1500个丑数

最近在阅读《算法新解》(刘新宇 著),书写得很不错,推荐程序们阅读。前言中有个例子,是寻找第1500个丑数,所谓丑数是指仅含2、3、5这三个素因子的自然数。作者在书中给出了伪代码。作为练习,记录下自己的代码。 一、暴力查找法 算法思路 :迭代每个自然数,逐一判断是否是丑数,并观察累计计数是否达到1...

2017-01-30 21:03:58

阅读数 1871

评论数 2

使用高德API接口查询两个地址之间的距离

要点: 1. 通过高德开放者平台http://lbs.amap.com/,注册一个开发者账号,获得一个KEY(查询接口需要使用该KEY) 2. 阅读高德web 服务API接口的文档 http://lbs.amap.com/api/webservice/summary/  3. 可将编程过程分解过两...

2017-01-04 22:58:19

阅读数 15701

评论数 3

用python从PDF格式论文中读取其中的参考文献

目标:      给定一篇PDF格式的文章,用python解析其内容,并使用正则表达式提取出其中的参考文献内容      本文中假设参考文献内容以[1] [2] 这样的索引编写。 必要条件:      安装解析PDF文件的python软件 pdfminer 包 http://www.unixu...

2016-10-23 17:17:38

阅读数 2436

评论数 1

记两则SQL编程中的坑

近期写SQL提取数据时,踩了两个坑。稍做回顾总结,以期对其他人能有所帮助。 concat的使用 concat用于合并多个字符串,很早以前,一直以为如果输入的参数中有null值,concat会自动忽视之。直到有一次的业务需求开发中,需要合并商品的多个类目信息,最后发现总是有很多类目为空的商品,排...

2016-10-15 14:22:28

阅读数 198

评论数 0

递归练习-House Robber问题求解

LeetCode上第198题,题目如下 You are a professional robber planning to rob houses along a street. Each house has a certain amount of money stashed, the only...

2016-09-10 22:01:00

阅读数 370

评论数 0

网络爬虫-用python获取豆瓣新书推荐信息

前言:      数据获取是数据分析师的职场必备技能,其中通过网络爬虫,自动、有组织地爬取一些网站数据,既实用,又有趣。本文通过对豆瓣新书速递页面及其子页面的迭代爬取,介绍python3环境下,网络爬虫的入门级用法。     其中的要点在于通过网页元素信息,定位到目标信息的标签格式,然后通过p...

2016-06-11 22:53:26

阅读数 708

评论数 0

TCP/IP编程入门-案例学习

前言      从作为一名数据分析从业者,一直不太了解后台开发岗位所使用的各种网络编程方法,于是也就老想闹明白,这个东西究竟是咋玩的? 本文试图通过一个小案例,来管窥下这个领域的编程套路。参考的书籍主要是《TCP/IP网络编程》(尹圣丽 著 金国哲 译)。 我们知道,网络编程主要就是实现服务端与客...

2016-06-10 01:35:34

阅读数 229

评论数 0

Storm实时计算-新手学习(案例模仿)

前言:       实时计算必将在越来越多的业务场景下得以应用,故而有意学习一番。主要参考《Storm分布式 实时计算模式》一书第1章节《分布式单词记数》。 一、要做的事       像mapreduce程序练手时常常用会word count 来演示,这里也用这个需求来演示storm实时计算...

2016-06-08 18:16:11

阅读数 646

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭