人工智能和大数据训练营实战项目
文章平均质量分 84
腾阳
全网同名,欢迎关注,文章首发公号
展开
-
AI&BigData one:使用Python爬虫实现爬取HTML页面内容
# -*- coding: utf-8 -*- 'Python实现爬取HTML页面内容# 导入requests包import requests# BeautifulSoup用于页面解析from bs4 import BeautifulSoup# requests get请求# requests.get里面返回的就是纯网页文件,下面需要进一步的解析req = requests...转载 2018-04-23 21:05:53 · 1452 阅读 · 0 评论 -
AI&BigData three:使用定时器抓取数据
要求:监管信息主要字段:来源(如证监会)、类型(如:证监会要闻/行政处罚)、标题、时间、文章地址、内容(非必须,正文)抓取频率:每日9点、12点、4点# -*- coding: utf-8 -*-"""Created on Wed May 02 16:43:10 2018@author: TY"""# coding:utf8#引入时间模块# -*- coding: utf-8 -...原创 2018-05-04 20:07:28 · 552 阅读 · 0 评论 -
AI&BigData two:使用Python爬虫将爬取的内容转入Excel表格
# -*- coding:utf-8 -*-import requestsimport pandas as pdfrom bs4 import BeautifulSoupurl = 'http://quote.eastmoney.com/stocklist.html'# 伪装成Mozilla浏览器,解决反爬虫user_agent = 'Mozilla/4.0 (compatible...原创 2018-04-29 13:04:13 · 2002 阅读 · 0 评论 -
AI&BigData four:使用scrapy爬取网站,按照指定的格式存入txt文本的详细过程复盘
用了将近两个星期,终于对scrapy有了初步了解,并且使用scrapy来爬取到了动态加载的网页。再此给自己这两周的学习成果做一个详细的过程复盘,顺带重温下忘掉的知识。首先看看项目要求。要爬取的是左边的四个大板块里的四个小版块的文章,然后按照以下的格式保存在文档中。最终爬取的结果是这样的:接下来让我们看看具体过程是怎样的?1.打开命令行,跳转到指定文件存放的目录下,新建一个scrapy项目。如下所示...原创 2018-05-16 17:34:06 · 1426 阅读 · 2 评论 -
AI&BigData five:基于爬虫抓取的语料,使用gensim建设dictionary、corpus、tfidf_model并保存成文件两种方法
爬虫抓取了想要的文本之后,接下来就是对爬虫爬取的所有文本进行自然语言处理。在这里提供两个思路。1.直接在爬虫文件中添加自然语言处理的函数,功能是对爬取的文章进行自然语言处理。2.先保存爬虫爬取的所有文件到一个指定的文件夹,新建一个自然语言处理程序进行遍历所有的文件夹中的文本,然后打开相应的文本进行处理。两种方法无所谓好坏,看个人需求吧。我是偏向在爬虫中添加,简单快捷,不容易出错。一些基本过程可以参...原创 2018-05-26 09:11:12 · 3560 阅读 · 0 评论