数据科学入门到精通
涤生(bluez)
数据科学家=程序猿+艺术家+会讲故事的人+统计学家
展开
-
机器学习快速入门
1、课程介绍学习前提 对微积分,线性代数,概率论的基本知识有一定了解 有一定编程基础(最好是Python) 学习目标 理解机器学习的概念、原理、常用算法 学会对原始数据的预处理 学会使用Python语言和相关的机器学习库 学会使用常用算法和应用框架解决实际问题 课程安排 基本介绍 基本概念 监督学习 非监督学习 2、机器学习概念...原创 2019-11-23 17:35:58 · 2194 阅读 · 0 评论 -
python半小时快速上手
机器学习算法day01_python快速上手课程大纲 Python快速上手 Python简介 Python集成开发环境 Python基本语法 Python的变量和集合 Python流程控制语法 Python函数 Python模块 ...原创 2019-11-23 17:08:22 · 754 阅读 · 0 评论 -
第三阶段:数据存储与计算(离线场景):3.4 数据采集flume
概要Apache Flume 是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集、聚合和移动大量日志数据到一个集中式的数据存储区。Flume 的使用不只限于日志数据。因为数据源可以定制,flume 可以被用来传输大量事件数据,这些数据不仅仅包括网络通讯数据、社交媒体产生的数据、电子邮件信息等等。Apache Flume 是 Apache 基金会的顶级项目,在加...原创 2019-11-23 16:51:35 · 414 阅读 · 1 评论 -
第三阶段:数据存储与计算(离线场景):3.3 数据存储alluxio(1T)
Alluxio概览什么是 Alluxio 优势 技术创新 快速上手指南 下载和有用资源什么是 AlluxioAlluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。 这还使得应用程序能够通过一个公共接口连接到许多存储系统。 Alluxio内存...原创 2019-11-12 15:12:23 · 436 阅读 · 0 评论 -
第三阶段:数据存储与计算(离线场景):3.2 数据存储hdfs
云计算云计算的看法,是忽悠?还是能带来真实价值的东西?云计算是对现有资源集中优化后,对客户提供服务,从现在的情况来看云计算真实的为大家提供了服务,比如:网盘等。至于云计算更为准确的定义为美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被...原创 2019-11-07 09:28:31 · 1441 阅读 · 0 评论 -
第三阶段:离线场景下的数据存储与计算 3.1 zookeeper详解
应用程序的高可用“高可用性”(High Availability简称HA)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。举例来说:为了保证学校门口的安保问题,需要许多保安轮流值岗,这样万一有哪个保安因为身体原因无法值岗的话还可以有其他人顶上,这样就可以保证整个学校门口的安保的高度可用。应用程序高可用的类型主从方式(也称之为主从冷备)还是学校门口的...原创 2019-03-28 17:09:14 · 463 阅读 · 0 评论 -
第二阶段:分布式理论简介:2.4 大数据集成架构概述
一、大数据的发展史2004年Google前后发表三篇论文,也就是传说中的“三驾马车”分页式文件系统GFS 大数据分布式计算框架MapReduce NoSQL数据库系统BigTable2006年Doug Cutting启动了一个赫赫有名的项目Hadoop,主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce,分别实现了GFS和MapReduce其中两篇论...原创 2019-11-06 17:01:39 · 700 阅读 · 0 评论 -
第二阶段:分布式理论简介:2.3 一致性、2PC和3PC
1一致性1.1 简述一致性,是指对每个节点一个数据的更新,整个集群都知道更新,并且是一致的假设一个具有N个节点的分布式系统,当其满足以下条件时,我们说这个系统满足一致性:全认同: 所有N个节点都认同一个结果 值合法: 该结果必须由N个节点中的过半节点提出 可结束: 决议过程在一定时间内结束,不会无休止地进行下去1.2 面临着的问题消息传递异步无序: 现实网络不是一个可...原创 2019-11-06 16:37:59 · 431 阅读 · 0 评论 -
第二阶段:分布式理论简介:2.2数据分布方式
1、数据分布方式1)哈希方式:按照数据的某一特征计算哈希值,并将哈希值与机器中的机器建立映射关系,从而将不同哈希值的数据分布到不同的机器上。特征就是key-value中的key,也可以是其他与应用业务逻辑相关的值。2)按数据范围分布:将数据按照特征值的值域范围划分不同的区间,使得集群中每台服务器处理不同区间的数据。3)按数据量分布:与具体的数据特征无关,将数据视为一...原创 2019-11-06 15:16:29 · 170 阅读 · 0 评论 -
第二阶段:分布式理论简介:2.1 CAP理论介绍
CAP原则CAP原则又称CAP定理,指的是在分布式系统的设计中,没有一种设计可以同时满足 Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性)3个特性,这三者不可得兼。It states, that though its desirable to have Consistency, High-Availability a...原创 2019-11-06 15:09:51 · 215 阅读 · 0 评论 -
决策树
决策树%matplotlib inlineimport osimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt# os.chdir('E:/data')accepts = pd.read_csv('accepts.csv', skipinitialspace=True)accepts = a...原创 2019-07-10 16:53:48 · 283 阅读 · 0 评论 -
最近领域与朴素贝叶斯
KNN字段含义income收入attractive吸引力assets资产edueduclass教育程度dated是否约会成功income_rank收入等级attractive_rank吸引力等级assets_rank资产等级加载数据集import pandas as pdimport os# os.c...原创 2019-07-10 16:53:15 · 210 阅读 · 0 评论 -
Feature-engineering
Preprocessing%matplotlib inlineimport pandas as pdpd.set_option('display.max_columns', 10)raw = pd.read_csv('telecom_bill.csv')raw.head() ID churn join_tim...原创 2019-07-10 16:47:32 · 418 阅读 · 1 评论 -
Ensemble-methods
Ensemble methods%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npimport os# os.chdir('Q:/data')churn = pd.read_csv('telecom_churn.csv')churn.head()...原创 2019-07-10 16:54:29 · 275 阅读 · 0 评论 -
Course_clustering_model
|字段|含义|类型||:–原创 2019-07-10 16:45:55 · 440 阅读 · 0 评论 -
pyspark-association_rule
读取数据Transactions.csv,包含三个字段:发票号(或购物小票编号)顺序号所购物品名称sc<pyspark.context.SparkContext at 0x7f096a1cf890>text = sc.textFile('hdfs://192.168.142.128:9000/Transactions.csv')text.take(5)[u'O...原创 2019-07-10 16:42:40 · 265 阅读 · 0 评论 -
movie_recommendation_spark1
mllib建立推荐模型数据准备数据包含在ml-100k的文件夹中,文件夹中比较重要的几个文件是u.user(用户属性数据集)、u.item(电影元数据)和u.data(用户对电影的评分数据)(1)u.user数据的每列分别代表用户ID、年龄、性别、职业、邮政编码,其分隔符为“|”;(2)u.item数据包含的列为电影ID、电影名、上映日期及其它一些属性信息,分隔符也为“|”;(3)u....原创 2019-07-10 16:41:38 · 2487 阅读 · 0 评论 -
Collaborative Filtering
生成示例数据import numpy as npimport pandas as pdraw = [['1', '101', 5.0], ['1', '102', 3.0], ['1', '103', 2.5], ['2', '101', 2.0], ['2', '102', 2.5], ['2', '103', 5.0], ['2', '104', 2.0],...原创 2019-07-10 16:40:50 · 212 阅读 · 0 评论 -
aprioriAll
测试数据集seq1 = [ [30], [90] ]seq2 = [ [10, 20], [30], [40, 60, 70] ]seq3 = [ [30, 50, 70], ]seq4 = [ [30], [40, 70], [90] ]seq5 = [ [90], ...原创 2019-07-10 16:39:05 · 595 阅读 · 1 评论 -
profile_telecom聚类练习
k-means应用——使用“profile_telecom”数据集变量说明cnt_call呼叫次数cnt_msg短信发送次数cnt_wei微信发送次数cnt_webweb浏览次数%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltimport numpy ...原创 2019-07-10 15:42:40 · 321 阅读 · 0 评论 -
SVD
%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt奇异值分解A = np.matrix( [[5, 5, 0, 5], [5, 0, 3, 4], [3, 4, 0, 3], [0, 0, 5, 3], [5, 4,...原创 2019-07-10 15:41:07 · 73 阅读 · 0 评论 -
关联规则-just for python2
AprioriUse pip to install orange first%matplotlib inlineimport osimport pandas as pdos.chdir('Q:/data')pd.set_option('display.max_columns', None)data = pd.read_csv('Transactions.csv')data.he...原创 2019-07-10 15:34:02 · 125 阅读 · 0 评论 -
关联规则Apriori
一个测试数据集import pandas as pddataSet = [['A', 'C', 'D'], ['B', 'C', 'E'], ['A', 'B', 'C', 'E'], ['B', 'E']]1、生成候选的1-项集import itertoolsdef createC1(dataSet): # 'C...原创 2019-07-10 15:32:54 · 484 阅读 · 0 评论 -
样本聚类
样本聚类%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体mpl.rcParams['font.size'] =...原创 2019-07-10 15:32:15 · 2602 阅读 · 1 评论 -
数据线性关系的可视化
数据线性关系的可视化%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as snssns.set(color_codes=True)np.random.seed(sum(map(o...原创 2019-07-10 15:20:55 · 507 阅读 · 0 评论 -
高级分类器:支持向量机( SVM)与凸优化
高级分类器:支持向量机( SVM)与凸优化例题1:import numpy as npimport matplotlib.pyplot as pltfrom sklearn import svmx1 = [0, 1, 0, 1]; x2 = [0, 0, 1, 1]; y = [1, 1, 0, 0]model1 = svm.SVC(kernel='linear').fit(list...原创 2019-07-10 16:55:26 · 617 阅读 · 0 评论 -
chapter11 (pybrain)
第十一 讲 使用神经网络进行客户流失预警%matplotlib inlineimport osimport numpy as npfrom scipy import statsimport pandas as pdimport sklearn.cross_validation as cross_validationimport statsmodels.api as smimport...原创 2019-07-10 17:28:12 · 178 阅读 · 0 评论 -
数据分析思维五大误区
很多同学在问:数据分析有没有标准思路,有没有分析思维模式。答案当然是:有。但绝不是大家日常在公众号看到的各种炫酷名字。什么SOWT,PEST,二八法、切割法、多维法、业务法……这些名字炫酷有余,可解决真实商业问题的时候没一个靠谱的。今天我们正本清源,一次性跟大家解释清楚:哪些数据思维的常见误区。误区一:数据分析思维是4P,4C,SWOT,PEST,五力模型……澄清:这些太过宏观,完全...转载 2019-09-29 17:57:55 · 616 阅读 · 1 评论 -
Java基础(三)
什么是数据结构:数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。常见的数据结构数组,栈,链表,哈希表,队列,堆,图,树Java中集合框架其实就是数据结构的实现的封装,今天是我们自己从头来模拟和实...原创 2019-08-02 10:32:54 · 179 阅读 · 0 评论 -
Java基础(二)
一、件生命周期:软件生命周期: 软件的产生直到报废的整个过程.软件生命周期内有:问题定义, 可行性分析, 总体描述, 系统设计,编码, 调试和测试, 验收与运行, 维护升级到废弃等阶段--------------------------------------------------------------------------------------1):问题的定义及规划: 此...原创 2019-08-02 10:28:37 · 387 阅读 · 0 评论 -
Java基础(一)
计算机语言与编程概述什么是计算机语言?生活中的两个人的交流主要是方式无非是采用一种都能够识别的语言,那么也就是说该语言是他们之间传递信息的媒介计算机语言是指用于人与计算机之间通讯的一种特殊语言,是人与计算机之间传递信息的媒介。那计算机怎么能读懂我们给它发出的的信息呢?此时就需要编写一套由字符、数字所组成并按照某种语法格式的一串串计算机指令,而这些计算机指令就是计算机语言。...原创 2019-08-02 10:22:38 · 255 阅读 · 0 评论 -
统计推断基础
统计推断基础数据说明:本数据是地区房价增长率数据名称-中文含义dis_name-小区名称rate-房价同比增长率import osos.chdir('Q:/data')os.getcwd()'Q:\\data'import pandas as pdhouse_price_gr = pd.read_csv('Q:/data/house_price_gr.csv', e...原创 2019-07-10 10:28:26 · 689 阅读 · 1 评论 -
线性回归
线性回归模型与诊断数据说明:本数据是一份汽车贷款数据字段名中文含义ididAcc是否开卡(1=已开通)avg_exp月均信用卡支出(元)avg_exp_ln月均信用卡支出的自然对数gender性别(男=1)Age年龄Income年收入(万元)Ownrent是否自有住房(有=1;无=0)Selfempl是否自谋...原创 2019-07-10 10:26:28 · 947 阅读 · 1 评论 -
离网用户预警
主要功能的帮助文档:matplotlibseabornpandasscikit-learn读取数据pandas可以读取文本文件、json、数据库、Excel等文件使用read_csv方法读取以逗号分隔的文本文件作为DataFramehead、tail等方法可以浏览部分数据集,可使用dtypes方法查看各列数据类型,通过astype方法修改数据类型import panda...原创 2019-07-10 19:15:34 · 770 阅读 · 1 评论 -
词云分析
import pandas as pddf_news=pd.read_table(r'C:\Users\CDAer\Desktop\data\car.txt', names=['category','theme','url','content'])df_news.head(3)df_news.shapedf_news['category'].val...原创 2019-07-10 19:12:57 · 880 阅读 · 0 评论 -
分词
1、最大正向匹配的分词#定义的分词def getSeg(text,wd_dict): if not text: return '' if len(text)==1: return text if text in wd_dict: return text else: new_lenth=len(tex...原创 2019-07-10 19:12:20 · 515 阅读 · 0 评论 -
自定义情感分析
import jiebaimport numpy as npdef judgeodd(num): if (num % 2) == 0: return 'even' else: return 'odd' path='C:/Users/CDA/Desktop/data/'#打开词典文件,返回列表def open_dict(Dict =...原创 2019-07-10 19:11:37 · 339 阅读 · 0 评论 -
文本分类
语料的读取与处理import pandas as pddf_news=pd.read_table(r'C:\Users\CDAer\Desktop\data\car.txt', names=['category','theme','url','content'])import jieba#提取新闻的内容,并将其转变成列表content_list=d...原创 2019-07-10 19:10:32 · 145 阅读 · 0 评论 -
word2vec
1、语料的预处理novel=open('C:\\Users\\CDAer\\Desktop\\西游记.txt',mode='r',encoding='gb18030')content=novel.read()import jiebacutword=jieba.lcut(content,cut_all=False,HMM=True)Building prefix dict from ...原创 2019-07-10 19:08:50 · 1614 阅读 · 0 评论 -
SnowNlp
from snownlp import SnowNLPtext='质量还行吧!领的优惠劵买的,就是觉得挺划算的才买的,想再买一件没优惠劵了!如果是女生穿个子不是特别高买了肯定会觉得大了,他们家的款就是适合男生穿的,女生穿大部分人觉得长了,袖子也长的,这个价钱挺值得!'s=SnowNLP(text)for i in s.sentences: sco=SnowNLP(i) ...原创 2019-07-10 19:06:34 · 482 阅读 · 0 评论