matlab代码转换成python_七月在线Python数据分析第四课时课程笔记-CSDN博客

在知乎上面看到推荐的这个七月在线网站的课程，可以学到Python有关数据分析的操作，顿时非常心动，期待周末的学习分享。从第一课到第四课，了解了Python的基础知识，Python是一门非常全面的编程语言，在各个不同领域都有着繁多的应用。Python也因为简单全面易用而成为近年来大热的编程语言。

首先，Python可以做什么？1、数据库：Python在数据库方面很优秀，可以和多种数据库进行连接，进行数据处理，从商业型的数据库到开放源码的数据库都提供支持。2、多媒体：利用PIL、Piddle、ReportLab 等模块,你可以处理图象、声音、视频、动画等，从而为你的程序添加亮丽的光彩。动态图表的生成、统计分析图表都可以通过Python来完成。3、web开发框架：django是流行的web开发框架，使用优雅的python语言写成。采用MVC的软件设计模式，主要目标是使得开发复杂的、数据库驱动的网站变得简单。4、科学计算：说起科学计算，首先会被提到的可能是MATLAB。然而除了MATLAB的一些专业性很强的工具箱还无法替代之外，MATLAB的大部分常用功能都可以在Python世界中找到相应的扩展库。5、网络编程： Python可以非常方便的完成网络编程的工作，提供了众多的解决方案和模块，可以非常方便的定制出自己的服务器软件，无论是c/s，还是b/s模式，都有很好的解决方法。6、游戏编程。目前，通过Python完全可以编写出非常棒的游戏程序。

通过前三课时的学习，现在开始进入第四课Python数据获取与处理了。

打开数据源，list(open(‘data3.txt’))

读入数据结果，result=pd.read-table(‘data3.txt’,sep=’st’)

如果需要跳过几行，可以这样写代码：result=pd.read-table(‘data3.txt’,skiprows=[0,2,3])

如果希望导入的数据空值的显示为NULL,

result=pd.read-table(‘data3.txt’,na-values=[‘null’])

当保存输出数据时，Data.to-csv(‘out.csv’)

如果需要添加分隔符，可以这样写

Data.to-csv(sys.stdout,sep=‘1’)

如果不希望导入的数据显示标题和序号，可以这样写

Data.to-csv （sys.stdout,index=False,header=False）

如果希望自定义序号，可以这样写

Data.to-csv （sys.stdout,index=False,columns=[‘a’,’b’,’c’]）

纵向合并数据集可以考虑一下几种方法：

读取数据为list格式，使用append函数逐行读取

将数据集转换为pandas中的dataframe格式，使用dataframe的merge与concat方法

几种方法如下：

方法一：使用dataframe读入，使用concat把每行并起来

方法二：先使用list读入并起来，最后转换成dataframe

方法三：先使用list读入并起来大块的list，每块list转换成dataframe后用concat合并起来。

接下来要介绍JSON格式数据的读取：

首先输入import json,

将文件的内容上传，result=json.loads(obj)

再将内容抛出来，print json.dumps(result,encoding=“UTF-8”,ensure- ascii=False)

最后来介绍爬虫的技巧：

常见python爬虫框架： (1)Scrapy:很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。(2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。(3)Portia:可视化爬取网页内容。 (4)newspaper:提取新闻、文章以及内容分析。 (5)python-goose:java写的文章提取工具。(6)Beautiful Soup:名气大，整合了一些常用爬虫需求。缺点：不能加载JS。 (7)mechanize:优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。 (8)selenium:这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。(9)cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高。