python数据采集
文章平均质量分 79
lytangus
这个作者很懒,什么都没留下…
展开
-
使用BeautifulSoup解析HTML
通过css属性来获取对应的标签,如下面两个标签 <span class="green"></span><span class="red"></span>可以通过class属性抓取网页上所有的红色文字,具体代码如下:from urllib.request import urlopenfrom bs4 import Beautiful...原创 2018-02-25 19:14:56 · 886 阅读 · 0 评论 -
numpy
本文主要记录一些在学习numpy过程中较难理解的知识点1. 高维数组的转置和轴对换arr = np.arange(16).reshape((2,2,4))arrOut[4]: array([[[ 0, 1, 2, 3], [ 4, 5, 6, 7]], [[ 8, 9, 10, 11], [12, 13, 14, 15]]])...原创 2018-05-09 00:02:31 · 172 阅读 · 0 评论 -
数据聚合和分组运算
GroupBy技术 主要流程为split-apply-combine(拆分-应用-合并),具体为: 分组运算的第一个阶段,pandas对象中的数据会根据你所提供的一个或多个键被拆分为多组,拆分操作实在特定的轴上执行的。然后,将一个函数应用到各个分组并产生一个新值。最后,所有这些函数的执行结果会被合并到最终的结果对象中。 - 根据一个或多个键拆分pandas对象 ...原创 2018-05-18 21:53:22 · 2139 阅读 · 0 评论 -
pandas解析
1. pandas主要包括两种数据结构:Series和DataFrame Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的的数据标签组成。import pandas as pdobj = pd.Series([4,7,-5,3])objOut[3]: 0 41 72 -53 3dtype: int64 Da...原创 2018-05-12 23:07:58 · 379 阅读 · 0 评论 -
数据清理、合并、重塑、转换
1. 合并数据集 pandas.merge: 根据一个或多个键将不同DataFrame的行连接起来,它实现的是数据库的连接操作。具体如下:多对一的合并:df1Out[4]: data1 key0 0 b1 1 b2 2 a3 3 c4 4 a5 5 a...原创 2018-05-15 21:42:43 · 302 阅读 · 0 评论