获取微信公众号文章内容

1、注册个人微信公众号

2、登录微信公众平台=》素材管理-》新建图文模板=》点击上方“超链接”=》选择其他公众号(这里输入需要获取文章的公众号名称)=》点击查询前先打开浏览器的调试,获取要请求的url和请求参数

参考下列图:

 

3、使用步骤2中的url去请求,获得该公众号下的文章地址列表url

@Test
public void get(){
        CloseableHttpClient httpClient = HttpClientBuilder.create().build();  
        HttpGet httpGet= new HttpGet("步骤2中的url");
        //请求头
        httpGet.setHeader("cookie", "步骤2中cookie");
        httpGet.setHeader("user-agent", "步骤2中user-agent");
        CloseableHttpResponse response = null;
        try {
            RequestConfig requestConfig = RequestConfig.custom()
                    // 设置连接超时时间(毫秒)
                    .setConnectTimeout(5000)
                    // 设置请求超时时间(毫秒)
                    .setConnectionRequestTimeout(5000)
                    // socket读写超时时间(毫秒)
                    .setSocketTimeout(5000)
                    // 设置是否允许重定向
                    .setRedirectsEnabled(true).build();
            httpGet.setConfig(requestConfig);
            response = httpClient.execute(httpGet);
            // 返回参数
            HttpEntity responseEntity = response.getEntity();
            System.out.println("响应状态为:" + response.getStatusLine());
            System.out.println("响应内容为:" + EntityUtils.toString(responseEntity));
        } catch (ClientProtocolException e) {
            //TODO
            e.printStackTrace();
        } catch (ParseException e) {
            //TODO
            e.printStackTrace();
        } catch (IOException e) {
            //TODO
            e.printStackTrace();
        } finally {
            if (httpClient != null) {
                httpClient.close();
            }
            if (response != null) {
                response.close();
            }
        }
    }

4、请求步骤3中获取的文章地址url,使用jsoup解析返回的html文件得到文章内容

<!--jsoup-->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.8.3</version>
</dependency>
    @Test
    public void parseHtml() throws Exception {
        String url = "步骤3中返回列表的Url(link字段)";
        //请求方式与步骤3类似,不需要传请求头
        String htmlContent = get(url);
        Document doc = Jsoup.parse(htmlContent);
        //根据html的div中的class来解析
        Elements e = doc.getElementsByClass("rich_media_content");
        System.out.println("解析的html内容为" + e.text());
    }

 

爬虫是一种自动抓取网页数据的程序,可以用于获取微信公众号内容信息。下面是一个简单的Python爬虫示例,使用了`requests`库来发送HTTP请求并解析HTML内容,以及使用了`BeautifulSoup`库来进行HTML内容的解析: ```python import requests from bs4 import BeautifulSoup def get_wechat_article(url): # 发送GET请求到指定URL获取文章页面 response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: soup = BeautifulSoup(response.text, 'html.parser') # 解析文章标题、作者、发布日期等信息 title = soup.find('title').text.strip() author = soup.find(id="js_content").find_previous("h2", class_="rich_media_title").text.strip() date = soup.find(id="js_content").find_next_sibling("span").text.strip() # 解析文章内容 article_text = "" for paragraph in soup.find_all("p"): article_text += paragraph.text.strip() + "\n\n" return {'title': title, 'author': author, 'date': date, 'content': article_text} else: print(f"Request failed with status code {response.status_code}") return None # 使用示例 url = "https://mp.weixin.qq.com/s/YsJZxXjwO7oBzRyvLk986A" # 微信公众号文章链接 article_info = get_wechat_article(url) if article_info is not None: print(f"Title: {article_info['title']}\nAuthor: {article_info['author']}\nDate: {article_info['date']}") print("\nContent:\n") print(article_info['content']) else: print("Failed to fetch the article.") ``` 请注意,这个示例仅作为一个基础框架,并可能存在一定的局限性和失效情况,尤其是当网站结构发生变化时。实际应用中,需要考虑到更多的边界条件和异常处理。 ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值