kkbb8811-CSDN博客

原创抓取虎扑王者荣耀板块最近十页帖子，2.5W回帖数据，来看看JR们都有哪些有趣的信息

数据说明：王者荣耀区最近十页的发帖，每个帖子内的第一页用户的个人信息主题帖：王者荣耀区十页大概是有800个帖子。我抓取了这些帖子的主题，并且对关键词进行了抽取。根据jieba分词包（一个软件包）对这800个主题进行分析后，去除掉一些常用的无实意的词后。得出19个关键字为：王者,英雄,战队,荣耀,单排,KPL,赛季,打野,射手,皮肤,胜率,上分,攻略,春季,裴擒虎,出装,刘邦,大家,主播,大家最

2018-03-03 12:22:03 766

原创基于Python爬虫的大众点评商家评论的文本挖掘

使用工具编程语言工具：Python 2.7 R 2 .2.1 excel浏览器：Google Chrome数据库： Mongodb相关算法：情感分析情感分析（Sentiment Analysis），又被称为倾向性分析、意见挖掘，是通过对带有一定的情感色彩的主观性文本进行处理分析，归纳推理的过程，例如通过用户对产品的性能、价格、便携性等方面的评价分析用户对该产品的情感倾向。

2018-02-21 10:18:52 15737 4

原创利用Python数据分析：数据规整化（五）

import pandas as pdfrom pandas import Series,DataFrameimport numpy as npimport re# 计算指标/哑变量（dummy）df = DataFrame({'key':['b','b','a','c','a','b'], 'data1':range(6)})pd.get_dummi

2017-03-06 13:38:44 837

原创利用Python数据分析：数据规整化（四)

# 移除重复项data = DataFrame({'k1':['one'] * 3 +['two'] * 4, 'k2':[1,1,2,3,3,4,4]})datadata.duplicated() # 返回一个布尔类型的Series来表示各行是否为重复行（duplicated adj. 复制出的，复写书的）data.drop_duplicates(

2017-03-05 21:02:09 673

原创利用Python数据分析：数据规整化（三)

a = Series([np.nan,2.5,np.nan,3.5,4.5,np.nan], index=['f','e','d','c','b','a'])b = Series(np.arange(len(a),dtype=np.float64), index=['f','e','d','c','b','a'])b[-1] = np.nanab

2017-03-03 19:49:31 306

原创利用Python数据分析：数据规整化（二)

left1 = DataFrame({'key':['a','b','a','a','b','c'], 'value':range(6)})right1 = DataFrame({'group_val':[3.5,7]},index=['a','b'])pd.merge(left1,right1,left_on='key',right_index=True

2017-03-03 19:48:30 356

原创利用Python数据分析：数据的规整化（一）

import pandas as pdfrom pandas import Series,DataFrameimport numpy as npdf1 = DataFrame({'key':['b','b','a','c','a','a','b'], 'data1':range(7)})df2 = DataFrame({'key':['a','b','d'

2017-03-03 19:47:44 435

原创利用Python数据分析：数据加载、存储与文件格式（一)

import pandas as pdfrom pandas import DataFrame,Seriesimport sysimport numpy as npdf = pd.read_csv('E:\Python for Data Analysis\pydata-book-master\ch06\ex1.csv')dfpd.read_table('E:\Python for Da

2017-02-28 19:43:24 713 1

原创利用Python数据分析：pandas入门（六)

import pandas as pdimport numpy as npfrom pandas import DataFrame,Series# 使用 Dataframe的列作为索引frame = DataFrame({'a':range(7),'b':range(7,0,-1), 'c':['one','one','one','two','two'

2017-02-28 15:51:22 527

原创利用Python数据分析：pandas入门（五)

from pandas import Series,DataFrameimport pandas as pdimport numpy as npfrom numpy import nan as NAdf = DataFrame(np.random.randn(7,3))df.ix[:4,1] = NAdf.ix[:2,2] = NAdfdf.fillna(0) # 将缺失值填充为0

2017-02-26 19:07:13 532

原创利用Python数据分析：pandas入门（四)

s1 = Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e'])s2 = Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g'])s1s2s1+s2 # 索引相同的会相加自动对齐，不重叠的索引引入为NA值df1 = DataFrame(np.arange(9.).reshape((3,

2017-02-20 13:21:43 431

原创利用Python数据分析：pandas入门（三）

obj = Series(range(3),index=['a','b','c'])index = obj.indexindexindex[1:]index[1] = 'd' # index对象是不能被修改的 Index does not support mutable operationsindex = pd.Index(np.arange(3))obj2 = Series([1

2017-02-20 13:19:17 1472

原创用Python写网络爬虫系列（三）表单处理

import urllib,urllib2LOGIN_URL = r'http://example.webscraping.com/user/login'LOGIN_EMAIL = '[email protected]'LOGIN_PASSWORD ='qq123456'data ={'email':LOGIN_EMAIL,'password':LOGIN_PASSWORD}encoded

2017-02-15 12:35:06 1899

原创利用Python数据分析：pandas入门（二）

import pandas as pdimport numpy as npfrom pandas import Series,DataFramedata = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'], 'year':[2000,2001,2002,2001,2002], 'pop':[1.5,1.7,3

2017-02-12 22:02:35 381

原创利用Python数据分析：pandas入门（一）

from pandas import Series,DataFrameimport pandas as pdimport numpy as np# Series:是由数据和数据标签组成的也就是数据+索引是pandas的基本数据结构obj = Series([4,7,-5,3])obj # 因为没有给数组指定索引系统会自动创建一个从0~N-1长度的整数型的索引obj.values

2017-02-12 22:01:40 387

原创利用Python数据分析：Numpy基础（七）

import numpy as npsamples = np.random.normal(size=(4,4)) # 标准正态分布一个4*4的样本数组samples#随机漫步#纯Python的内置模块进行1000步的随机漫步import randomposition = 0walk = [position]steps = 1000for i in xrange(steps):

2017-02-09 09:00:23 679

原创利用Python数据分析：Numpy基础（六）

import numpy as nparr = np.random.randn(8)arrarr.sort()arrnp.sort(arr) #np的顶级方法返回的是副本arr = np.random.randn(5, 3)arrarr.sort(1) #多维数组按照指定的轴进行排序arr#这里属于就地排序直接在数组上进行操作#分位数计算：先进行排序而后取对应位置的值lar

2017-02-08 12:28:42 460

原创利用Python数据分析：Numpy基础（五）

import numpy as nppoints = np.arange(-5, 5, 0.01) # 产生1000个建个相等的点xs, ys = np.meshgrid(points, points) # meshgrid接受两个一维的数组，并且产生两个二维矩阵ysimport matplotlib.pyplot as pltz = np.sqrt(xs**2+ys**2) # 而

2017-02-07 13:02:32 368

原创利用Python数据分析：Numpy基础（四）

import numpy as nparr = np.arange(15).reshape((3,5))arrarr.T # 转置返回的是源数据的视图，不仅仅有transpose方法还有一个特殊的T属性，行变成列，列变成行# np使用 dot来计算矩阵的内积arr = np.random.randn(6,3)np.dot(arr.T,arr)# 对于高维的数组transpose方法

2017-02-05 17:16:32 382

原创利用Python数据分析：Numpy基础（三）

names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])data = np.random.randn(7, 4) # 七行四列的数组namesdatanames == 'Bob'data[names == 'Bob']# 在这里names的长度为7 这个二维数组的长度也为7 于是可以用这个布尔型的数组作

2017-02-02 15:43:32 543

原创利用Python数据分析：Numpy基础（二）

import numpy as nparr = np.array([[1., 2., 3.], [4., 5., 6.]])arr.shapearrarr * arrarr - arr # 大小相等的数组的任何运算都会被运用到元素级别1 / arrarr ** 0.5# 基本的索引和切片arr = np.arange(10)arrarr[5]arr[5:8]arr[

2017-02-02 15:42:17 417

原创利用Python数据分析：Numpy基础（一）

data1 = [6,7.5,8,0,1]arr1 = np.array(data1)arr1data2 = [[1,2,3,4], [5,6,7,8]]arr2 = np.array(data2)arr2arr2.ndim#查看这个数组有几维arr2.shape#数组的形状arr1.dtypearr2.dtype#np.array会尝试为新建的数组腿短出一个合适的数据类型n

2017-02-02 15:41:26 597

原创用Python写网络爬虫系列（二）------数据获取

在系列（一）中我们已经知道了怎么样去访问一个网站，我们写爬虫的目的是什么？就是为了获取数据。那么知道怎么样把网页下载下来之后我们进一步的要对网站上的数据进行采集。我使用的工具主要有三个，正则表达式、lxml、Beautifulsoup 目标网站以及目标数据：http://example.webscraping.com/view/United-Kingdom-239 数据：这个国家的国土面积是多

2017-01-04 17:05:10 463

原创用Python写网络爬虫系列（一）

从两个新认识的包说起：builtwith，whois。所使用的Anaconda 4.1.1没有预设这两个包。所以需要自己加入导入方法：pip install builtwith 用来导入builtwith 。pip install python-whois这两个包有什么作用。用来做什么？builtwith：用来查看某个网站使用的是什么样的技术代码示例：import builtwith

2016-12-30 21:32:08 685

kkbb8811的博客