BeautifulSoup解析网页 用于解析HTML或XML 步骤: 创建BeautifulSoup对象 查询节点 find,找到第一个满足条件的节点 find all 找到所有满足条件的节点 创建对象 创建BeautifulSoup对象 查找节点 可按节点类型、属性或内容访问
Pandas 一个强大的分析结构化数据的工具集 基础是Numpy,提供了高性能矩阵的运算 应用,数据挖掘,数据分析 如:学生成绩分析、股票数据分析等 提供数据清洗功能 Series 类似一维数组的对象 通过list构建Series ser_obj = pd.Series(range(10)) 由数据和索引组成 索引在左,数据在右 索引是自动创建的 获取数据和索引 ser_obj.index,ser_obj.values 预览数据 ser_obj.head(n)
DataFrame 类似多维数组/表格数据(如:excel,R中的data.frame) 每列数据可以是不同的类型 索引包括行索引和列索引 通过ndarray创建DataFrame 通过dic创建DataFrame 通过列索引获取列数据(Series类型) df_obj[col_idx]或df_obj.col_idx 增加列数据,类似dict添加key_value df_obj[new_col_idx] = data 删除列 del df_obj[col_idx]
索引操作 连续索引 不连续索引
pandas统计计算和描述