数据分析
文章平均质量分 86
Qton
这个作者很懒,什么都没留下…
展开
-
Python 数据分析 数据挖掘 学习路径图
话不多说,相信看到这篇文章的你一定是对数据分析,数据挖掘有兴趣,或者想从事和方面。本文不再累述python对数据分析的重要,数据分析这门的由来之类的。在这里,我单刀直入,已我学习数据挖掘3年来的经历告诉大家怎么去学,以让大家少走弯路。纯个人见解,如有不对,还请各位留言指教。话不多说,直接放图。一 学好工具python语言推荐看廖雪峰的python3教程。数原创 2017-04-15 18:03:26 · 17956 阅读 · 2 评论 -
python 矩阵
1.numpy的导入和使用from numpy import *;#导入numpy的库函数import numpy as np; #这个方式使用numpy的函数时,需要以np.开头。2.矩阵的创建由一维或二维数据创建矩阵>>> from numpy import *>>> a1=array([1,2,3])>>> a1array([1, 2, 3])>>>转载 2017-08-16 15:03:20 · 832 阅读 · 0 评论 -
编写python爬虫 获取中华英才网全网工资数据
做数据分析 数据挖掘,第一步是获取数据,在这里,我们要分析现今全国各地各个职业的工资情况。我们选择较为权威的‘中华英才网’,编写python爬虫获取该网站上的各个招聘信息说给出的工资,再取其行业工资的平均值,即为该行业目前的大概工资。1 以深圳为例如‘数据挖掘’这个职业在深圳查找的情况如上图。代码里我们去掉‘面议‘,工资3000-6000这样的我们取其中值4500写ex原创 2017-05-07 19:47:36 · 4406 阅读 · 1 评论 -
JavaScript 读书笔记(函数)
1 函数定义和调用定义function abs(x){if(x>=0){return x}else{return -x}};arguments 判断传入参数的个数// foo(a[, b], c)// 接收2~3个参数,b是可选参数,如果只传2个参数,b默认为null:function foo(a, b, c) { if (arguments.length原创 2017-05-12 21:10:48 · 357 阅读 · 0 评论 -
pandas.read_csv to_csv参数详解
pandas.read_csv参数详解pandas.read_csv参数整理 读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:filepath_or_buffer : str,pathlib。str, pa转载 2017-04-23 11:10:17 · 27933 阅读 · 0 评论 -
JavaScript 读书笔记(基本语法)
注释//alert('我不想执行');/*alert('我也不想执行');*/数据类型和变量1 Number123; // 整数1230.456; // 浮点数0.4561.2345e3; // 科学计数法表示1.2345x1000,等同于1234.5-99; // 负数NaN; // NaN表示Not a Number,当无法计算结果时用NaN表示Infini原创 2017-05-12 08:48:06 · 339 阅读 · 0 评论 -
数据预处理 01处理
前面机器学习 K-近邻算法(一)博客中值为连续值。我们要进行朴素贝叶斯分类时需要对数据进行离散处理,简单的是进行01处理。1 首先,惯例pandas读取数据变成DataFrame,查看数据及数据描述。(如需数据请留言,博客没办法上传附件请见谅)import timeimport numpy as np import pandas as pd group = pd.原创 2017-04-22 21:23:09 · 1382 阅读 · 0 评论 -
Pandas 数据清洗
前言:数据的质量直接关乎最后数据分析出来的结果。在进行数据分析前,我们必须对数据进行清洗。如果数据较少,我们可以对缺失值,异常值进行拉格朗日插值法进行插值处理。在这篇博客里,因为数据样本较充足,我们直接对少量的异常值进行简单粗暴也是最有效的删除。先上图看一下数据(注:因为博客上传不了附件,如有需要样本数据自己进行实测的可以留言索要)上图为要进行清洗的数据的一原创 2017-04-22 20:14:38 · 7921 阅读 · 10 评论 -
python 数据读写 IO
1 TXT读写# 写入txt_0=open('packages/txt_0.txt','w') # w 只写 r 只读txt_0.write('写入数据到TXT')txt_0.close()# 读取txt_1=open('packages/txt_0.txt','r')print(txt_1.read())group = pd.read_table('bayes.txt原创 2017-05-04 12:33:40 · 791 阅读 · 0 评论 -
韶大talk 评论热度抽取
代码:import re , urllib.parse , urllib.request , http.cookiejar , base64 , binascii , rsa,time cj = http.cookiejar.LWPCookieJar()cookie_support = urllib.request.HTTPCookieProcessor(cj)opener = url原创 2017-05-07 21:44:08 · 2004 阅读 · 1 评论 -
机器学习 朴素贝叶斯
1 贝叶斯公式P(A|B) = P(B|A)*P(A)/P(B)事件A发生的情况下事件B发生的概率 = B发生的情况下A发生的概率*B发生的概率/A发生的概率2 处理二值化(经过二值化后的数据)代码:df = pd.read_csv('DATA/Fly_0_1.csv',header =None)print(df.describe())index_all =原创 2017-05-04 09:25:11 · 408 阅读 · 0 评论 -
SQL 数据库 函数
1 平均值 AVG ()SELECT AVG(count) AS CountAverage FROM access_log;下面的 SQL 语句选择访问量高于平均访问量的 "site_id" 和 "count":SELECT site_id, count FROM access_logWHERE count > (SELECT AVG(count) FROM access_log原创 2017-05-11 18:42:40 · 602 阅读 · 0 评论 -
SQL 数据库 基础
1 选择 SELECTSELECT name,country FROM Websites;列出不同(distinct)的值SELECT DISTINCT country FROM Websites;SELECT * FROM Websites LIMIT 2;SELECT 50 percent FROM Websites; 2 限制 WHERESELECT * FROM原创 2017-05-11 09:16:42 · 583 阅读 · 0 评论 -
python 数据分析入门(list set tuple dict)
程序# 1函数def abs(x): if x>=0: return x else: return -xdef max(a=0,b=0): if a>b: return a elif a<b: return b else: return 0# 2异常try: print(0/0)except: print('error')print原创 2017-04-15 20:29:33 · 626 阅读 · 0 评论 -
机器学习 K-近邻算法(一)
示例:使用K-近邻算法改进约会网站的配对效果我的朋友海伦一直使用在线约会网站寻找适合自己 约会对 。尽管约会网站会推荐不同的人选 但她 没有从中找到喜欢的人。经过一番总结 她发现曾交往过三种类型的人□不 喜欢的人□ 魅力一 般的人□ 极具魅力的人尽管发现了上 述规律,但海伦依然无法将约会网站推荐的 匹配对象归入 恰当的分类 。她觉得可以在周一到周五约会那些魅力一般的人,而周原创 2017-04-19 23:47:55 · 596 阅读 · 0 评论 -
机器学习 K-近邻算法
KNN算法属于有监督学习中的分类算法算法原理:1 计算未知点与已知点的距离2 列出前K个与此未知点最近的已知点(已经归好类有标签)3 统计此K个中出现最多次数的归类并把未知点归为此类。实例:有4个带标签的点 [0,10] A [0,8] A[10,0] B[7,0] B求未知点[9,6]应该归为哪类python实现如下:f原创 2017-04-19 15:38:28 · 441 阅读 · 0 评论 -
数据分析 EXCEL
基础输入字符串 ‘020格内换行 ait+enter日期 Ctrl+; 时间 Ctrl+shift+; 动态 =TODAY() =NOW()2/3 二月三日 0 2/3 是三分之二复制 向下复制 Ctrl+D 向右复制 Ctrl+R 也可选中整个区域 不相邻:Ctrl+...选中 Ctrl+enter完成自动小数点 自动加0 文件-帮助-选项-高级-3则表示在后面加000原创 2017-04-17 20:52:53 · 804 阅读 · 0 评论 -
pandas IO numpy 矩阵
import timeimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltprint('\n\n--------列表 list []------')# 生成list_0=list(range(10))list_1=[6,9,3,5,7]list_2=[x*x for x in range(1原创 2017-08-24 14:06:18 · 848 阅读 · 0 评论