- 博客(253)
- 资源 (9)
- 收藏
- 关注
原创 python 数据结构
# -*-coding:utf-8-*-# -----------------# Data Structures# -----------------import numpy as np''' Lists'''''' list.append(x):添加元素x list.extend(L):添加list列表L list.insert(i,x):在i位置插入元素x
2017-02-16 10:08:05 509
原创 python-Pandas基础
# -*-coding:utf-8-*-# -------------------# pandas 两种数据结构:Series和DataFrame# -------------------import pandas as pdfrom pandas import Series, DataFrameimport numpy as np'''pandas 功能: 数据丢失 插入
2017-02-15 20:00:12 586
原创 python-NumPy基础
# -*-coding:utf-8-*-# ----------------# Numpy:科学计算,主要是矩阵运算# ----------------# THE BASICSimport numpy as np''' Numpy的数组称为ndarry,也可以使用array来表示函数说明: ndarray.ndim:矩阵的维数 ndarray.shape:矩阵的行
2017-02-15 19:58:49 558
原创 python高级特性
# -*-coding:utf-8-*-# -----------------# 高级特性# -----------------# 构造一个列表L = []n = 1while n < 99: L.append(n) n = n + 2print L# ----------# 切片# ----------L = ['mich', 'sara', 'tracy',
2017-02-15 19:57:19 298
原创 python函数
# -*-coding:utf-8-*-# -----------------# 函数# -----------------print abs(-100) # abs函数:取绝对值print cmp(1, 2) # cmp函数,比较大小,如果x<y,返回-1,如果x=y,返回0,如果x>y,返回1# ---------------# 数据类型转换:# 数据的不同类型之间的转换
2017-02-15 19:56:37 280
原创 python基础
# -*-coding:utf-8-*-# ---------# python基础# ---------# ---------# 数据类型# 整数:# 浮点数:可以使用科学记数法表示,1.23,3.14,-9.01# 字符串:# 布尔值:and or not运算,True,False# 空值:None# 变量:# 常量:# ------
2017-02-15 19:55:46 379
原创 python:pandas合并csv文件(图书数据集成)
两张表:ReaderInformation.csv,ReaderRentRecode.csvReaderInformation.csv: ReaderRentRecode.csv: pandas读取csv文件,并进行csv文件合并处理:# -*- coding:utf-8 -*-import csv as csvimport numpy as np# -------------# csv读取
2017-02-13 15:05:58 17123
原创 python编码问题
这里是一个图书馆读者借阅信息: 在对数据进行分析的过程中遇到了中文编码的问题,折腾了一上午也没有解决,最后我把源文件的文件格式改成utf-8格式,才正常显示。# -*- coding:utf-8 -*-# -------------# pandas读取表格数据# -------------import pandas as pddf = pd.read_csv('ReaderRentRecod
2017-02-13 14:09:45 585 1
原创 python文件
交互操作:input、raw_input、print打开文件:open(name, mode, suffer)读取文件:read()写入文件:write()管式输出:|读写行:file.readline(),file.readlines(),writelines()关闭文件:close()# -*- coding:utf-8 -*-########################## open(n
2017-02-10 17:19:06 1792
原创 python函数
# -*-coding:utf-8-*-import cmathimport math################################################## x = pi# abs(x) 返回数字的绝对值# cmath.sqrt(x) # 返回平方根,也适用于负数# float(x) # 转换成浮点数# input() # 用于用户输入# int(
2017-02-10 16:12:33 2362 1
原创 GitHub教程:注册、上传及项目管理
1、github注册和登陆: 入口地址:https://github.com/ 邮箱激活后,就可以登陆了: 登陆后的界面: 2、上传代码 首先新建一个仓库: 此时,返回项目主页面,可以看到增加一个项目kaggle 安装客户端Git for Windows: https://git-for-windows.github.io/ 安装Tortoisegit:(小乌龟) h
2017-01-12 20:20:22 454
原创 【kaggle】Titanic
数据集:train.csv https://www.kaggle.com/c/titanicGetting Started With Python:# -*-coding:utf-8-*-####################### by kevinelstri# 数据集:train.csv# Getting Started With Python###################
2016-12-30 15:47:41 749
原创 【kaggle】Celebrity Death
数据集:celebrity_deaths_2016.csv https://www.kaggle.com/hugodarwood/celebrity-deaths读取数据集:# -*-coding:utf-8-*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.gridsp
2016-12-30 15:05:33 587
原创 【机器学习理论】第3部分 聚类分析
1、概述聚类分析可以应用到多个领域中,在生物学中,聚类可以辅助动植物分类的研究,可以通过对基因数据的聚类,找出功能相似的基因;在地理信息系统中,聚类可以找出具有相抵用途的区域,辅助石油开采;在商业上,聚类可以帮助市场分析人员对消费者的消费记录进行分析,从而得出消费者的消费模式,实现消费群体的区分。聚类就是将数据对象分组成多个类簇,划分的原则就是使得同一个簇内的对象之间具有较高的相似度,而不同簇之间对
2016-12-24 14:17:03 5970
原创 【机器学习理论】第2部分 相关性度量
不管是在机器学习算法中,还是数据挖掘算法中,相似性的度量都是一个非常重要的概念。 在聚类算法中,利用样本之间的相似度进行将样本进行划分成不同的类别; 在搜索引擎中,当输入关键词时,是利用关键词与网络信息之间的相似度来产生结果的,使得搜索引擎产生的信息能够符合用户的需要; 在推荐系统中,同样是利用相似性来为用户推荐可能需要的信息,满足用户的需求。相似度距离计算可以分为很多种,下面进行详细的描述:
2016-12-15 14:33:18 3940
原创 【机器学习理论】第1部分 机器学习基础
对于机器学习算法也使用了一段时间,现在进行一个系统的学习和总结,也给自己补缺补差,回头来看,发现对于机器学习的理解更加的清晰,更加有条理,在整体的思路上的把握也更加的完善,所以建议对于机器学习的学习一定要多实践,多回头查看、【分类介绍】监督学习:在监督学习中,我们只需要给定输入样本集,机器就可以从中推测出指定目标变量的可能结果。监督学习使用两种类型的目标变量:标称型和数值型。标称型:其目标变量的结
2016-12-15 10:08:10 2510
原创 局域网
局域网范围:1米~2000米之间城域网范围:2000米~5000米广域网范围:最大可覆盖全球1、局域网特性局域网是一种高速数据网络,网络的覆盖地域范围相对较小。局域网的关键特征就是它们只能覆盖有限的范围。局域网主要服务于单个部门、楼宇、车间或校园内彼此距离较近的多个楼宇,局域网甚至可以扩展到几公里范围,但通常需要一种称为中继器(repeater)的特殊设备来再生信号。不同类型的网络电缆都有传输数据
2016-12-07 16:07:12 920
原创 【机器学习】第4部分 关联分析
1、关联分析的基本概念关联分析(association analysis):从大规模数据集中寻找物品间的隐含关系。项集(itemset):包含0个或者多个项的集合称为项集。频繁项集:那些经常一起出现的物品集合支持度计数(support count):一个项集出现的次数也就是整个交易数据集中包含该项集的事物数关联规则是形如A->B的表达式,规则A->B的度量包括支持度和置信度项集支持度:一个项集出现
2016-12-06 15:13:38 16814 3
原创 【机器学习理论】第5部分 微积分基础
1、两边夹定理如果函数![这里写图片描述](http://img.blog.csdn.net/20161121152943052)满足下列条件:(1)当时![这里写图片描述](http://img.blog.csdn.net/20161121152954657),有![这里写图片描述](http://img.blog.csdn.net/20161121153004552)(2)当时,有,那么当
2016-11-21 16:22:45 626
原创 【Hacker Rank】08.Print function
Code:# -*- coding:UTF-8 -*-import sysdef f(): N = int(raw_input()) for i in range(1, N + 1): print i, sys.stdout.softspace = 0 # 注意,输出为一行,并且不能有空格if __name__ == "__main__":
2016-11-16 09:45:31 778
原创 【Hacker Rank】07.Write a function
Code:# -*- coding:UTF-8 -*-def is_leap(year): while 1900 <= year <= 10 ** 5: if (year % 4 == 0 and year % 100 != 0) or (year % 100 == 0 and year % 400 == 0): print True
2016-11-16 09:43:11 508
原创 【Hacker Rank】06.Loops
Code:# Enter your code here. Read input from STDIN. Print output to STDOUT# -*- coding:utf-8 -*-def loops(): N = int(raw_input()) while 1 <= N <= 20: for i in range(N): pr
2016-11-16 09:40:08 618
原创 【Hacker Rank】05.Python: Division
Code:# Enter your code here. Read input from STDIN. Print output to STDOUT# -*- coding:UTF-8 -*-from __future__ import division # 保留小数def div(): a = int(raw_input()) b = int(raw_input())
2016-11-16 09:37:43 460
原创 【Hacker Rank】04.Arithmetic Operators
Code:# Enter your code here. Read input from STDIN. Print output to STDOUT# -*- coding:UTF-8 -*-def operation(): a = int(raw_input()) b = int(raw_input()) while 1 <= a <= 10 ** 10 and 1 <=
2016-11-16 09:35:45 484
原创 【Hacker Rank】03.Python If-Else
Code:#!/bin/python# -*- coding:UTF-8 -*-import sysdef ifelse(): n = int(raw_input()) while 1 <= n <= 100: if n % 2 != 0: print 'Weird' break elif n % 2
2016-11-15 23:55:44 536
原创 【Hacker Rank】02.Reading Raw Input
Code:# Enter your code here. Read input from STDIN. Print output to STDOUT# -*- coding:UTF-8 -*-def read_input(): s = raw_input() if len(s) == 0 or len(s) > 500: return 0 else:
2016-11-15 23:26:57 622
原创 【Hacker Rank】01.Say "Hello, World!" With Python
Code:# Write your code on the next line. def sayHello(): my_string = 'Hello, World!' print my_stringif __name__ == "__main__": sayHello()
2016-11-15 23:24:04 824
原创 读《一个程序员的成长史》有感
好久没写过读后感了,今天随意的一瞥,竟被《一个程序员的成长史》吸引了,从学生的角度来认真看了一下工作的状态也是一种经历。 梦想是丰满的,现实是骨感的。毕业时的各种优秀证书,各种成绩只能表示在学生这个岗位自己的努力有所回报,自己的能力有所提升,但并不能表示自己的工作就会按照预期的发展。当然了学生岗位的认真才能决定自己未来的起点是怎样的,在为踏入公司职位之前,需要的都是努力前行,没有所谓的
2016-11-14 13:11:04 479
原创 ofo in the city
Public-bike is not a new thing in our country , some bikes are parked on the streets , these give us more convernent and save time. Several college students have a new ideal from public bike whi
2016-11-14 10:37:34 421
原创 New day , New time , New life...
Today I am aware of my English is very poor , so I start to reading and writing English , I hope to write a article everyday in myself. Firstly , I introduce a best website to your : DioEnglish ,
2016-11-14 09:43:19 460
原创 2017校招数据分析岗笔试/面试知识点
知识点1:贝叶斯公式贝叶斯公式:P(B|A)=P(A|B)*P(B)/P(A) 其中P(A)可以展开为 P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)*P(Bn)知识点2:关联规则分析主要考的是支持度和置信度。知识点3:聚类聚类之间类的度量是分距离和相似系数来度量的,距离用来度量样品之间的相似性(K-means聚类,系统聚类中的Q型聚类),相似系数用来度量变量之
2016-11-12 20:38:53 2565
原创 Python数据可视化:WordCloud词云的构建
在Python中构建词云,采用的是wordcloud库 官网: https://amueller.github.io/word_cloud/ github: https://github.com/amueller/word_cloud 下面对词云的构建进行代码实现:# -*- coding:utf-8 -*-from os import pathfrom scipy.misc import
2016-11-12 20:23:13 3652
原创 Python数据可视化:顶级绘图库plotly
https://plot.ly/python/static-image-export/plotly是现代平台的敏捷商业智能和数据科学库,它作为一款开源的绘图库,可以应用于Python、R、MATLAB、Excel、JavaScript和jupyter等多种语言,主要使用的js进行图形绘制,实现过程中主要就是调用plotly的函数接口,底层实现完全被隐藏,便于初学者的掌握。下面
2016-11-01 21:09:05 33190 5
原创 Python数据可视化:Matplotlib 直方图、箱线图、条形图、热图、折线图、散点图。。。
介绍 使用Python进行数据分析,数据的可视化是数据分析结果最好的展示方式,这里从Analytic Vidhya中找到的相关数据,进行一系列图形的展示,从中得到更多的经验。 强烈推荐:Analytic VidhyaPython数据可视化库Matplotlib:其能够支持所有的2D作图和部分3D作图。能通过交互环境做出印刷质量的图像。Seaborn:基于Matplotli
2016-10-26 21:43:11 83074 11
原创 Python数据可视化:箱线图
一、箱线图概念 箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。 计算过程: (1)计算上四分位数(Q3),中位数,下四分位数(Q1) (2)计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)Q3-Q1 (3)绘制箱线图的上下范围,上限为上四分位数,下
2016-10-26 19:01:39 45976 1
原创 Python re模块
re模块共有7种方法:# -*- coding:UTF-8 -*-import re'''re.compile(string[, flags])re.match(pattern, string[, flags])re.search(pattern, string[, flags])re.split(pattern, string[, maxsplit])re.findall(pattern
2016-10-24 16:11:04 2774
原创 Python中urllib和urllib2库的用法
使用urllib和urllib2抓取网页:# -*- coding:UTF-8 -*-import urllib2import urllib# 1、抓取网页response = urllib2.urlopen("http://www.baidu.com/")print response.read()'''分析: response = urllib2.urlopen("http://w
2016-10-24 15:04:41 6425
原创 Python lambda
1、lambda函数基础:lambda函数也叫匿名函数,即函数没有具体的名称,而用def创建的方法是有名称的。如下:# 函数创建时,是需要进行命名的def foo(): return 'beginman' # lambda关键字创建匿名函数lambda:'beginman' # 保存并调用bar = lambda:'beginman'print bar() lamba语法:
2016-10-17 09:50:40 1623
原创 Python reduce
reduce函数:def reduce(function, iterable, initializer=None): it = iter(iterable) if initializer is None: try: initializer = next(it) except StopIteration:
2016-10-16 23:35:17 1711
ourbestModel_highscore3500
2019-04-14
停用词表stopwords
2017-08-15
文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)
2017-04-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人