matlab代码转换成python_七月在线Python数据分析 第四课时课程笔记

在知乎上面看到推荐的这个七月在线网站的课程,可以学到Python有关数据分析的操作,顿时非常心动,期待周末的学习分享。从第一课到第四课,了解了Python的基础知识,Python是一门非常全面的编程语言,在各个不同领域都有着繁多的应用。Python也因为简单全面易用而成为近年来大热的编程语言。

首先,Python可以做什么?1、数据库:Python在数据库方面很优秀,可以和多种数据库进行连接,进行数据处理,从商业型的数据库到开放源码的数据库都提供支持。2、多媒体:利用PIL、Piddle、ReportLab 等模块,你可以处理图象、声音、视频、动画等,从而为你的程序添加亮丽的光彩。动态图表的生成、统计分析图表都可以通过Python来完成。3、web开发框架:django是流行的web开发框架,使用优雅的python语言写成。采用MVC的软件设计模式,主要目标是使得开发复杂的、数据库驱动的网站变得简单。4、科学计算:说起科学计算,首先会被提到的可能是MATLAB。然而除了MATLAB的一些专业性很强的工具箱还无法替代之外,MATLAB的大部分常用功能都可以在Python世界中找到相应的扩展库。5、网络编程: Python可以非常方便的完成网络编程的工作,提供了众多的解决方案和模块,可以非常方便的定制出自己的服务器软件,无论是c/s,还是b/s模式,都有很好的解决方法。6、游戏编程。目前,通过Python完全可以编写出非常棒的游戏程序。

通过前三课时的学习,现在开始进入第四课Python数据获取与处理了。

ae59abb8cc4317b807610cd5d6288cdb.png

678844bd5edab34908d1417c1c008d84.png

打开数据源,list(open(‘data3.txt’))

读入数据结果,result=pd.read-table(‘data3.txt’,sep=’st’)

如果需要跳过几行,可以这样写代码:result=pd.read-table(‘data3.txt’,skiprows=[0,2,3])

如果希望导入的数据空值的显示为NULL,

result=pd.read-table(‘data3.txt’,na-values=[‘null’])

当保存输出数据时,Data.to-csv(‘out.csv’)

如果需要添加分隔符,可以这样写

Data.to-csv(sys.stdout,sep=‘1’)

如果不希望导入的数据显示标题和序号,可以这样写

Data.to-csv (sys.stdout,index=False,header=False)

如果希望自定义序号,可以这样写

Data.to-csv (sys.stdout,index=False,columns=[‘a’,’b’,’c’])

纵向合并数据集可以考虑一下几种方法:

读取数据为list格式,使用append函数逐行读取

将数据集转换为pandas中的dataframe格式,使用dataframe的merge与concat方法

几种方法如下:

方法一:使用dataframe读入,使用concat把每行并起来

方法二:先使用list读入并起来,最后转换成dataframe

方法三:先使用list读入并起来大块的list,每块list转换成dataframe后用concat合并起来。

接下来要介绍JSON格式数据的读取:

b785cd795f847a0dab3e141985be2234.png

首先输入import json,

将文件的内容上传,result=json.loads(obj)

再将内容抛出来,print json.dumps(result,encoding=“UTF-8”,ensure- ascii=False)

最后来介绍爬虫的技巧:

常见python爬虫框架: (1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。(2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。(3)Portia:可视化爬取网页内容。 (4)newspaper:提取新闻、文章以及内容分析。 (5)python-goose:java写的文章提取工具。(6)Beautiful Soup:名气大,整合了一些常用爬虫需求。缺点:不能加载JS。 (7)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。 (8)selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。(9)cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。

8a34468f29c58743207fbe49e9538649.png

92186b929b4f238154543add0c2dafa8.png

首先输入

From lxml.html import parse

From urllib2 import urlopen

Links=doc.findall(‘.//a’)

Spans= doc.findall(‘.//span’)

取出文本def-unpack(spans):

Return [val.text-content() for val in spans]

Contents=unpack(spans)

Print contents即可出现你需要从网页抓取的内容了。 多加练习就可以熟练操作了!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值