Python实用操作基础
江流静一
这个作者很懒,什么都没留下…
展开
-
python带权重的列表中随机取值
1 random.choicepython random模块的choice方法随机选择某个元素foo = ['a', 'b', 'c', 'd', 'e']from random import choiceprint choice(foo)2 random.sample使用python random模块的sample函数从列表中随机选择一组元素list = [1, 2, 3, 4, 5, 6,...原创 2018-03-07 13:57:34 · 9206 阅读 · 2 评论 -
欢乐颂小说的文本基础的数据处理工作
闲来无事写点小程序自己乐呵乐呵~~~~背景: 欢乐颂2刚播出那会,每周更新的太慢,所以想起去翻看欢乐颂的小说,然后,三分钟热度,想起对欢乐颂中的数据进行处理一番,原来还假想可能会发现一些好玩的,后来因为某些原因不了了之了,但是,刚开始那份低热所学习到的东西倒是让我有着想要记录下来的念想。# -*-coding:utf-8-*-import reimport jiebaimport os...原创 2018-02-14 23:37:48 · 373 阅读 · 0 评论 -
将多个txt中的文件读写到一个TXT文件中
闲来无事写点小程序自己乐呵乐呵~~~~背景: 笔者去年暑假的时候为了督促自己学习,养成了使用TXT文件来记录每天的点滴,目的是提醒自己一直在努力,不要迷茫。但是暑假结束后,想要看看这个暑假自己一共做了啥,因此就想到了写一个小程序将这些日记都读到一个文件里面去,方便直观查看。 为此,首先要解决的是——使用实现读取目录所有文件的文件名并保存到txt文件代码。通过查阅资料并总结有两种方法:...原创 2018-02-14 23:02:28 · 2116 阅读 · 0 评论 -
【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数据实战
作为一个学习用Python进行数据分析的新手来说,通过本文来记录分享一些我在用Python中的pandas、numpy来分析Excel表中数据的数据清洗和整理的工作,目的是熟悉numpy以及pandas基础操作,所有操作利用Excel均可以方便实现。备注:本文中使用的是ipython完成的编辑数据来源及结构 本文所分析的数据是通过爬虫抓取的微博数据。选取新浪微博为数据平台,选取我国34个省的旅游...原创 2017-06-28 15:09:32 · 130438 阅读 · 29 评论 -
【利用Python进行数据分析——经验篇1】将Excel表中几列合并到一列中
我们都知道,在Excel中可以很容易实现,采用‘A1&B1’ 或者利用CONCATENATE(A1&B1)方式可以实现,但是在Python的pandas包中,本人没有找到合适的用于连接表中两列的函数,因此本人使用了字符串连接的方式。本文中案例以【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数据实战的实战数据为例首先查看该表格中各个列中的数据类型:...原创 2017-06-28 19:20:09 · 14729 阅读 · 1 评论 -
【利用Python进行数据分析——经验篇2】计算微博转发/评论/点赞h指数的Python代码
本文中记录了如何得出h指数的计算值微博转发/评论/点赞h指数:(定义),某博主如果他/她发表的N篇博文中有h篇每篇至少被h次转发/评论/点赞,而剩下的(N-h)篇博文中每篇被转发/评论/点赞次数均少于h次,则数值h则表示的是这个微博的转发/评论/点赞h指数。备注:本文中使用的是ipython交互式编辑器本文中案例以【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数...原创 2017-06-28 20:05:06 · 2855 阅读 · 0 评论 -
【利用Python进行数据分析——经验篇3】如何操作DataFrame中的列的数据格式(转为百分数、保留4位小数)
本文中案例以【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数据实战的实战数据为例备注:本文操作是使用ipython notebook进行的编译# 将DataFrame表中的浮点类型保留至小数点后四位# 自定义函数保留到小数点后四位f = lambda x: '%.4f' % x# 将aa 表的第21列到末尾的列的数据格式都保留到小数点后四位aa.ix[:,21:...原创 2017-06-28 20:21:07 · 10567 阅读 · 1 评论 -
【利用Python进行数据分析——经验篇4】将多张DataFrame表写入到同一个Excel的不同sheet中
# 创建一个输出文件writer = pd.ExcelWriter('out.xlsx')data = pd.read_table('table_All_pivot.csv',sep=',')data.to_excel(writer,'table_All_pivot',index=False)sf_All = pd.read_table('sf_All.csv', sep=',' )sf_All....原创 2017-06-29 11:20:41 · 22587 阅读 · 8 评论 -
python连接数据库及操作数据库
在数据分析过程中往往要操作较大的数据集,这就需要连接数据库进行操作import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom sqlalchemy import create_engineimport MySQLdb as msd# 先自定义函数将表格写入数据库里,以备操作过程中有些数据要写入数...原创 2018-02-27 17:02:08 · 7748 阅读 · 0 评论 -
自定义十折交叉验证
本文是《Python数据分析与挖掘》中第六章的补充代码# 1> 数据划分 取20%做测试样本,剩下做训练样本import pandas as pdimport numpy as npdt = pd.read_excel('model.xls')simpler = np.random.permutation(len(dt))dt = dt.take(simpler) #导入随机...原创 2018-02-15 00:35:21 · 4643 阅读 · 0 评论