读书笔记
yeverwen
研究方向:数据挖掘、推荐系统、风控算法
展开
-
【利用python进行数据分析】准备与实例(一)
我已经分享了本书的ipynb,所以跟着我一起来实验吧。如果你不懂怎么打开ipynb格式的文件,那也没关系,anaconda3让一切变得更简单(我像是打广告的)。安装玩anaconda之后,我们在开始里就可以找到它的文件夹,里面有一个Jupyter Notebook,就是它了。点开之后,弹出cmd的黑窗口,接着浏览器弹出网页,那么就启动成功了(这里别去关掉cmd的黑窗口,最小化就行),它的主页一般定...转载 2018-07-06 23:30:36 · 3107 阅读 · 0 评论 -
【利用python进行数据分析】准备与实例(二)
MovieLens 1M数据集GroupLens Research采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据。它分为三个表:评分、用户信息和电影信息。我们来试着读取数据,按性别计算每部电影的平均分:import pandas as pdencoding = 'lati...转载 2018-07-06 23:30:56 · 543 阅读 · 0 评论 -
【利用python进行数据分析】第4章numpy基础
Numpy的ndarray:一种多维数组对象NumPy最重要的一个特点就是其N维数组对象(即ndarray),该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算。其语法跟标量元素之间的运算一样:from numpy.random import randndata=randn(2,3)print(data)print(data*10)print(da...转载 2018-07-28 09:26:02 · 584 阅读 · 0 评论 -
【利用python进行数据分析】第5章pandas入门
pandas的数据结构介绍要使用pandas,你首先就得熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有的问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。由于频繁的使用pandas、Series和DataFrame,所以我们将其引入本地命名空间中会更方便from pandas import Series, DataFrameimport pa...转载 2018-07-28 09:22:29 · 418 阅读 · 0 评论 -
【python数据抓取技术与实战】单机数据抓取
1、单机顺序抓取这里使用的是Spynner库进行单进程抓取,通常用于目标明确及抓取内容数量不是很大的情况。加之我们用的python3,安装过程也复杂,所以我们就不必在这部分花时间了。但在这里,我们做一个简单的介绍。优点:Spynner基于pyqt库,pyqt封装了强大的webkit,具有执行JavaScript的能力,可以完全模拟一个浏览器的功能和行为。import spynner ...转载 2018-07-06 23:28:43 · 698 阅读 · 0 评论 -
【python数据抓取技术与实战】json
python提供了json库,专门用于json格式内容的解析处理。json的使用比较简单,常用的方法有load、loads、dump和dumps,我们这里结合mongodb,可以存储大量的json数据。查询北京大学地图的url,它返回的是json格式。我们可以通过该例子说明问题,网址如下:http://ditu.amap.com/detail/get/detail?id=B000A816R6,代码...转载 2018-07-06 23:28:17 · 463 阅读 · 0 评论 -
【python数据抓取技术与实战】BeautifulSoup
中文翻译:美丽汤。光听听名字就觉得是一个很棒的工具。言归正传,说说我们抓取的数据。其实返回的数据都是有结构化的。一般会遇到的三种结构化的返回数据,分别是HTML、XML和json。今天所介绍的BeautifulSoup就是python中处理HTML或XML的分析库,也就是说它能够解析这两种结构化文件。对于json的处理和分析,我们放到下一节再讲。BeautifulSoup能做抽取数据,提供各类方法...转载 2018-07-06 23:27:56 · 658 阅读 · 0 评论 -
【python数据抓取技术与实战】爬虫基础
第一个爬虫应用该代码主要爬取电子工业出版社http://www.phei.com.cn首页的内容。#引入requests模块import requests#定义get_content函数def get_content(url): resp = requests.get(url) return resp.text#"__name__ == '__main__'"的作用是被...转载 2018-07-06 23:26:45 · 526 阅读 · 0 评论 -
【python数据抓取技术与实战】正则表达式
我之所以把正则表达式单独罗列出来讲,是因为我觉得它在爬虫技术中的地位真的非常重要。所以,这个章节你也要打起精神学习。先来看看它是个什么工具正则表达式是处理字符串的有力工具。python中有个re模块提供了大量的方法,能实现正则表达式相关的各类操作。re模块常用的函数包括match、search、findall,可以通过help('re')命令查看函数用法。>>> help('re...转载 2018-07-06 23:27:38 · 318 阅读 · 0 评论