Python
文章平均质量分 77
xuweiling_
这个作者很懒,什么都没留下…
展开
-
[Python]百科爬虫
这是轻量级(无需登录和异步加载的静态网页的抓取)网络爬虫的开发,采用python语言编写,主要包括URL管理器、网页下载器(urllib2)、网页解析器(BeautifulSoup),实现百度百科Python词条相关的100个页面数据原创 2017-04-09 23:01:14 · 925 阅读 · 1 评论 -
python中NumPy的常见用法
python中NumPy的常见用法原创 2017-10-30 11:43:59 · 1072 阅读 · 0 评论 -
python笔记
python笔记原创 2017-10-21 19:24:47 · 334 阅读 · 0 评论 -
pandas:DataFrame入门
# 11.21 DataFrame入门# coding:utf-8import numpy as npimport pandas as pd#先创建一个时间索引,所谓的索引(index)就是每一行数据的ID,可以标识每一行的唯一值dates = pd.date_range('20171121',periods=6)print dates# DatetimeIndex(['2原创 2017-11-21 16:30:53 · 3018 阅读 · 0 评论 -
Spark:RDD及其简单操作
RDD:Spark对数据的核心抽象--弹性分布式数据集(Resilient Distributed Dataset)。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD、以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。原创 2017-12-05 12:53:42 · 335 阅读 · 0 评论 -
python下使用elasticsearch
ElasticSearch(简称ES)是一个分布式、Restful的搜索及分析服务器,设计用于分布式计算;能够达到实时搜索,稳定,可靠,快速。原创 2017-12-22 16:20:41 · 3654 阅读 · 0 评论 -
[python]百度贴吧爬虫
爬取西安交通大学吧内容,并以['url':page_url,'title':title,'para':reply]形式存储到MongoDB数据库。原创 2017-12-26 09:26:02 · 671 阅读 · 0 评论