你会用python爬取热搜评论数据吗?

大家好,这篇文章分享用python爬取热搜评论数据!

在内地颇具影响力的TVB与淘宝直播的首次合作已经开启了,特别是在合同公布之后,TVB的股价大涨。近些年,在明星涌入跨界直播带货的浪潮中,也不乏TVB艺人的身影,

根据大数据显示电商直播的用户群体还是以女性为主。中国香港艺人在内地对70后、80后影响较大,从年龄分布上看,35岁以上的人群,无论是在淘宝、抖音还是快手用户群体中占比都是偏低的,但是市场分析认为,TVB在内地市场拥有广泛的认知度,选择在国内用户基础最大的淘宝开播能更好的放大其影响力。

有很多的港剧迷调侃,“宇宙的尽头是直播。”也有粉丝非常捧场,称有了TVB这个渠道后,买一些正宗“港货”会更方便了,“就这一点而言,TVB新开拓的这条路线很有前景。”但还是有网友觉得,“更想看他们好好演戏”。

img

关于粉丝们的各种评论我想大家肯定都比较感兴趣,这里我们可以使用python爬取微博上有关tvb艺人直播热搜下得各种评论数据。

首先是微博热搜内容网址:https://s.weibo.com/weibo?q=TV

经分析,微博热搜数据就在网页中,可以直接requests请求,然后BeautifulSoup解析获取内容,但是微博一直都有很严的反爬机制,特别是对IP的限制都很严格,所以在爬取过程中我们可以使用python爬虫+爬虫代理加强版IP+BeautifulSoup来完成数据的爬取,完整代码如下:

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class Demo {

    public static void main(String[] args) {

        try{

            // 代理服务器(产品官网 www.16yun.cn)
            final static String ProxyHost = "t.16yun.cn";
            final static String ProxyPort = "31111";

            System.setProperty("http.proxyHost", ProxyHost);
            System.setProperty("https.proxyHost", ProxyHost);

            System.setProperty("http.proxyPort", ProxyPort);
            System.setProperty("https.proxyPort", ProxyPort);

            // 代理验证信息
            final static String ProxyUser = "16EOBZOI";
            final static String ProxyPass = "125478";

            System.setProperty("http.proxyUser", ProxyUser);
            System.setProperty("http.proxyPassword", ProxyPass);

            System.setProperty("https.proxyUser", ProxyUser);
            System.setProperty("https.proxyPassword", ProxyPass);




            // 设置IP切换头
            final static String ProxyHeadKey = "Proxy-Tunnel";

            // 设置Proxy-Tunnel
            Random random = new Random();
            int tunnel = random.nextInt(10000);
            String ProxyHeadVal = String.valueOf(tunnel);



            // 处理异常、其他参数
            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).get();

            if(doc != null) {
                System.out.println(doc.body().html());
            }

        }catch (IOException e)
        {
            e.printStackTrace();
        }

    }
}

完整版的Python全套学习资料

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值