2017年08月_飞鸟2010

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创自然语言处理入门（7）——基于TF-IDF的文本自动打标

1. TF-IDF简介TF-IDF（Term Frequency-Inverse Document Frequency）是一种统计方法，用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF倾向于过滤掉常见的词语，保留重要的词语。TF-IDF加权的各种形式常被搜寻引擎应用，作为文

2017-08-31 21:22:21 1914

原创自然语言处理入门（6）——基于LDA的文章主题生成

1. LDA概述LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别大规模文

2017-08-27 21:56:06 6024

原创 python数据分析（1）——获取微信好友的统计信息

本文主要是尝试下一个比较有意思的python模块：wxpy，导入此模块之后，可以很方便的来创建一个微信机器人和做一些和微信相关的有意思的分析。1. wxpy 安装首先，通过pip方式进行安装，在命令行模式下输入：pip install -U wxpy如下图所示：2. 登录微信（1）先导入wxpy模块，然后设置登录模式。如下所示：#导入模块from wxpy import *'''微信机器人登录有

2017-08-20 14:47:45 6111

原创自然语言处理入门（5）——基于WordArt的AGM手机评论词频分析

本文首先从速卖通（Aliexpress）获取到AGM X1手机（战狼2中吴京用的手机）的评论数据，然后利用一个很好的公开词频分析工具WordArt(https://wordart.com/create)来对评论数据进行分析。1. 获取评论数据(1) 评论数据获取python代码如下所示：# -*- coding: utf-8 -*-"""Created on Tue Aug 15 16:44:1

2017-08-15 17:32:51 1961 1

原创 pyhton微博爬虫（3）——获取微博评论数据

本文的主要目标是获取微博评论数据，具体包括微博评论链接、总评论数、用户ID、用户昵称、评论时间、评论内容、用户详情链接等。实现代码如下所示：# -*- coding: utf-8 -*-"""Created on Tue Aug 8 16:39:07 2017@author: Administrator"""import requestsfrom bs4 import Beautiful

2017-08-08 18:08:48 11446 5

原创 pyhton爬虫（12）——抓取携程酒店评论数据

本文主要目标是抓取携程酒店基本信息和用户评论数据。具体来说，酒店基本信息包括：酒店名、酒店星级、酒店最低房价、用户推荐比、酒店总评分等；用户评论数据包括：用户评论时间，用户评分，评论内容等。实现代码如下所示：# -*- coding: utf-8 -*-"""Created on Mon Aug 7 21:05:03 2017@author: Administrator"""import u

2017-08-07 22:24:58 19310 6

原创 pyhton微博爬虫（2）——获取微博用户关注列表

本文的主要目标是获取微博用户关注列表以及关注列表中各微博用户的ID、昵称、详情链接、粉丝数、关注数等关键信息。实现代码如下所示：# -*- coding: utf-8 -*-"""Created on Thu Aug 3 20:59:53 2017@author: Administrator"""import requestsimport jsonimport timeimport r

2017-08-04 00:54:33 9750 12

原创 pyhton微博爬虫（1）——获取知乎官方账号的微博数据

本文主要目标是获取新浪微博上知乎官方账号所发的微博内容信息。1. 分析网页通过仔细分析知乎官方账号页面信息（https://m.weibo.cn/u/1904769205），发现可以通过JSON方式获取微博数据。如下图所示：知乎官方账号的JSON链接为:https://m.weibo.cn/api/container/getIndex?type=uid&value=19047692

2017-08-01 22:03:49 2117

seo视频网站

这是有关seo设计的简介。（新人必看，txt格式）。

2011-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人