大数据&机器学习
伙伴几时见
致力于成为一名数据科学家
展开
-
字符串匹配算法(KMP、BM和Sunday),及Python实现
分类: Python/Ruby 这篇博客主要对三种字符串匹配算法(KMP、BM、Sunday)进行总结。这三种字符串匹配算法之间的主要区别在于:如果在匹配过程中遇到一个不匹配位,该用何种策略进行移位。例如,存在两个字符串,如下: 字符串: ABCADAB ABCDABCDABD 搜索字符串:ABCDA 下面给出三种算法的例子 KMP转载 2016-08-31 10:01:20 · 641 阅读 · 0 评论 -
python 词云 实例
#/usr/bin/env python # -*- coding: utf-8 -*- """ Created on Wed Jan 23 16:03:41 2019 @author: Administrator """ import os import sys import docx import jieba import jieba.posseg as pseg import re i...原创 2019-01-24 10:16:58 · 658 阅读 · 0 评论 -
【Python实战】Pandas:让你像写SQL一样做数据分析(一)
1. 引言Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类:Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container);Panel,为3维的结...转载 2018-06-21 14:42:00 · 409 阅读 · 0 评论 -
Spark(一): 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据...转载 2018-03-04 22:58:39 · 299 阅读 · 0 评论 -
spark机器学习笔记:(六)用Spark Python构建回归模型
声明:版权所有,转载请联系作者并注明出处 http://blog.csdn.net/u013719780?viewmode=contents 博主简介:风雪夜归子(英文名:Allen),机器学习算法攻城狮,喜爱钻研Meachine Learning的黑科技,对Deep Learning和Artificial Intelligence充满兴趣,经常关注Kaggle数据挖掘竞赛平台转载 2016-11-02 15:49:52 · 1070 阅读 · 0 评论 -
How to represent ROC curve when using Cross-Validation
1down votefavorite I am performing k-Fold Cross Validation using a Logistic Regression classifier on a dataset and computing the ROC curve and the AUC for each fold. My desi转载 2016-11-16 17:52:32 · 256 阅读 · 0 评论 -
spark机器学习笔记:(五)用Spark Python构建分类模型(下)
声明:版权所有,转载请联系作者并注明出处 http://blog.csdn.net/u013719780?viewmode=contents 博主简介:风雪夜归子(英文名:Allen),机器学习算法攻城狮,喜爱钻研Meachine Learning的黑科技,对Deep Learning和Artificial Intelligence充满兴趣,经常关注Kaggle数据挖掘竞赛平台,对转载 2016-11-15 23:29:07 · 542 阅读 · 0 评论 -
【机器学习笔记1】Logistic回归总结
文章来源:http://blog.csdn.net/dongtingzhizi/article/details/15962797 PDF下载地址:http://download.csdn.net/detail/lewsn2008/6547463 1.引言 看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,转载 2016-10-30 15:26:45 · 295 阅读 · 0 评论 -
Logistic回归
转自别处 有很多与此类似的文章 也不知道谁是原创 因原文由少于错误 所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白 并且有些复杂,后面的运行流程依据前面的得出的算子进行分类) 初步接触 谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,w转载 2016-10-17 23:08:55 · 472 阅读 · 0 评论 -
Linux下Spark框架配置(Python)
简述 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。由于spark带有Python的API转载 2016-08-23 09:34:01 · 446 阅读 · 0 评论 -
Hadoop之HDFS文件操作
摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式。本文介绍如何利用这两种方式对HDFS文件进行操作。 关键词:HDFS文件 命令行 Java API HDFS是一种分布式文件系统,为MapReduce这种框架下的海量数据分布式处理而设计。 Hadoop之HDFS文件操作常有两种方式,一种是命令行方式,即Hado转载 2016-09-13 10:00:45 · 360 阅读 · 0 评论 -
独家 | 从零开始用python搭建推荐引擎(附代码)
本文介绍了各种推荐引擎算法以及使用Python构建它们的基本框架。 简介 当今社会的每个人都面临着各种各样的选择。例如,如果我漫无目的想找一本书读,那么关于我如何搜索就会出现很多可能。这样一来,我可能会浪费很多时间在网上浏览,并且在各种各样的网站上搜寻,希望能找到有价值的书籍。这个时候我可能寻找别人的推荐。 如果有一家网站或者手机应用可以基于我以前阅读的书籍向我推荐新的书籍,那对我肯定有很大...转载 2019-05-29 14:20:30 · 326 阅读 · 0 评论