爬虫
文章平均质量分 71
knowyourself1
这个作者很懒,什么都没留下…
展开
-
对爬取的电影《唐人街探案3》豆瓣短评做文本分析,并利用stylecloud制作词云图
上一节,我们爬取了豆瓣上电影《唐人街探案3》的评论,并将评论保存成了txt文档,爬虫过程可参考:爬取某瓣上电影《唐人街探案3》的评论本节,我们将对电影短评做文本分析,并利用stylecloud制作词云图。详细步骤如下:1、调入需要用到的库文件#import pandas as pdimport matplotlib.pyplot as pltimport osimport jiebafrom sklearn.feature_extraction.text import CountVector原创 2021-03-07 01:10:44 · 1155 阅读 · 0 评论 -
爬取某瓣上电影《唐人街探案3》的评论
一、先用爬虫爬取评论数据1、《唐人街探案3》评论的url:https://movie.douban.com/subject/27619748/comments?start=20&limit=20&status=P&sort=new_score其中:①、27619748:该电影的ID;②、start=20:评论区页面第一页为20,第二页为40,以此类推;③、limit=20:评论区每页包含二十条评论;2、获取本地为用户代理User-Agent(简称UA)的方法,使用本地用户原创 2021-03-06 22:34:00 · 550 阅读 · 2 评论 -
windows10环境下curl 安装与配置
windows10环境下curl 安装与配置1、curl简介cURL是一个利用URL语法在命令行下工作的文件传输工具,1997年首次发行。它支持文件上传和下载,所以是综合传输工具,但按传统,习惯称cURL为下载工具。cURL还包含了用于程序开发的libcurl。cURL支持的通信协议有FTP、FTPS、HTTP、HTTPS、TFTP、SFTP、Gopher、SCP、Telnet、DICT、FILE、LDAP、LDAPS、IMAP、POP3、SMTP和RTSP。curl还支持SSL认证、HTTP PO原创 2021-02-27 18:55:07 · 8084 阅读 · 0 评论