python爬取知乎标题_Python-爬虫-爬取知乎的标题和当页显示的文字

最新推荐文章于 2021-08-18 23:44:39 发布

weixin_39747049

最新推荐文章于 2021-08-18 23:44:39 发布

阅读量192

点赞数

文章标签： python爬取知乎标题

# coding:utf-8

import requests

from bs4 import BeautifulSoup

quesNumStr = str(input("请输入搜索关键字："))

url = ‘https://www.zhihu.com/search?type=content&q=‘+quesNumStr

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36‘ # your user-Agent here

}

data = requests.get(url, headers=headers)

soup = BeautifulSoup(data.text, ‘lxml‘)

liList = soup.select(‘li‘)

print(len(liList))

for li in liList:

try:

temp1 = li.select(‘a[class="js-title-link"]‘)

if temp1:

print(‘The title is :‘)

print(temp1[0].get_text())

temp2 = li.select(‘div[class="summary hidden-expanded"]‘)

if temp2:

print(‘The content is:‘)

print(temp2[0].text)

except:

pass

原文：http://www.cnblogs.com/fredkeke/p/7003923.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39747049

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

知乎动态数据加载爬虫

weixin_42164467的博客

04-20

664

爬虫目标本次爬虫需要从知乎的话题新型冠状病毒肺炎的精华回答中爬取前100个回答的问题。然后得到<=100的问题的url后，到问题主页把问题下的50%的回答内容和作者信息爬取下来。本次爬虫主要分为四部分： 1.爬取精华回答页面，获取每个回答对应的问题的url。 2.爬取上一步的问题页面获取问题的关注人数、评论数，用来选择最热门问题。 3.爬取热门问题主页的前50%回答内容、回答获得的赞同数...

利用python爬取知乎评论_一个简单的python爬虫,爬取知乎

weixin_39830020的博客

12-13

1771

一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录，可自行实现，比图片更简单具体代码里有详细注释，请自行阅读项目源码：1 # -*- coding:utf-8 -*-23 from spider import spiderhtml4 from multiprocessing import pool5 import sys,urllib,http...

参与评论您还未登录，请先登录后发表或查看评论

python爬去知乎动态内容_Python-爬虫-爬取知乎的标题和当页显示的文字

weixin_39548438的博客

11-26

139

# coding:utf-8import requestsfrom bs4 import BeautifulSoupquesNumStr = str(input("请输入搜索关键字："))url = ‘https://www.zhihu.com/search?type=content&q=‘+quesNumStrheaders = {‘User-Agent‘: ‘Mozilla/5.0 (Maci...

python爬取知乎标题_python爬知乎热榜

weixin_39748858的博客

12-01

387

爬项目：知乎热榜标题、热度、简介。第一步浏览网页源代码确认在哪html 还是js里标题和热度在html标签内容在js 需要用到正则表达式：第二先爬html 里的内容调用模块—再请求一下url数据看看能否找到#注意：爬出以下内容，加密的需要添加cookie 和user-agent爬取xml内容，调用BeautifulSoup模块注意找html 属性时，代码如下：soup =BeautifulSo...

[Java]使用爬虫来获取知乎的推荐内容标题

lhc597876546的博客

10-29

438

本次测试是借鉴与：http://blog.csdn.net/pleasecallmewhy/article/details/17630063思想：通过输入域名，使用java程序连接对应网页（测试使用的是get请求方式）,将服务器响应过来的HTML代码接收下来，使用正则表达式寻找内容中的标题

python爬去知乎动态内容_如何利用python 爬取知乎上面的数据

weixin_39742727的博客

11-26

163

展开全部^#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author: Administrator# @Date: 2015-10-31 15:45:27# @Last Modified by: Administrator# @Last Modified time: 2015-11-23 16:57:31import requestsimpo...

python爬取知乎问题_Python-爬取知乎某个问题下的所有回答

最新发布

06-11

需要使用Python编程语言来爬取知乎问题下的所有回答。具体步骤如下： 1. 首先需要安装Python的requests和beautifulsoup4库，用于发送HTTP请求和解析HTML页面。 2. 获取知乎问题页面的URL，可以手动复制粘贴，或者...

python爬取知乎问题回答_知乎爬虫-爬取问题下面所有回答

weixin_39959192的博客

12-19

1401

搬运一下个人公众号里面的上古文章，主要是思想，实际代码不知道还能不能用。最近在做中文分词，所以需要一些中文语料。想起之前爬取过知乎的语料，但是效果不好，所以不如重新爬取一遍。爬取之前需要选择技术路线，刚开始使用了selenium，但是由于浏览器版本问题无法模拟登陆，所以就打算使用request+beautifulsoup路线。本次爬取目标是针对某个问题下面的所有回答目标回答是神经网络为什么可以(理...

python爬取知乎数据_python集成代码实现八爪鱼爬取知乎的所有功能+外加数据预处理...

weixin_39654848的博客

11-28

616

social：对标八爪鱼！知乎爬虫集成代码实现！（2020年7月29日）zhuanlan.zhihu.com上一篇文章（链接在上面）是对每一部分进行较为详细的说明，这一篇文章将介绍爬取的集成好的代码块，以及对爬取来的数据进行预处理。1.python集成代码实现八爪鱼爬取知乎的所有功能```python#!/usr/bin/env python# coding: utf-8import osimp...

python爬取知乎热榜了解时事

10-18

python爬取知乎热榜内容实现时事了解

python爬去知乎动态内容_通过Python爬虫爬取知乎某个问题下的图片

weixin_39883256的博客

11-26

274

该爬虫主要是通过requests来实现的，该模块完全可以很好的代替urllib和urllib2，而且功能更强大，详细可以看这里。同时也用到了pillow模块中的image对象，实现环境是Python2，不过在Python3上只需很小的改动就可以正常运行。首先通过cookie模拟登陆到知乎，然后获取知乎某一个问题的链接，打开并获取该问题回答下的图片，然后保存到本地。我们先看下知乎中的网页html文本...

python爬去知乎动态内容_python3 爬虫之只需要问题id爬取知乎问题全部回答

weixin_39603778的博客

11-26

151

先打个定心丸,本文所需要的技术点真的不难，我本来想要直接放代码的，但发现这次的不像之前写过的《Python3 + 教你只需要网易云音乐id + 爬取全部评论 + 生成词云图》那样需要解码，所以这次想一步一步来教你实现。首先要明白的一点现在大多数网站在返回数据时，并没有一下子返回全部的数据，而是通过Ajax分批返回数据，所以我们可以利用这一点，找到触发返回数据的规律，获取动态返回的数据。获取动态请求...

python爬虫之爬取简书中的小文章标题

scx2006114的博客

08-03

9917

学习了三个星期的python基础语法，对python语法有了一个基本的了解，然后想继续深入学习，但不喜欢每天啃书本，太无聊了，只有实战才是练兵的最好效果。听说爬虫技术还是比较好玩的，就搞爬虫，但找了好多资料没有找到合适的资料，最后才找到传说中的合适爬虫初学者的书籍《Python 3网络爬虫开发实战 ,崔庆才著》（文末附书本下载链接），学习了三天，终于完整搞出了自己的第一爬虫，哈哈~。...

爬取知乎发现中标题内容

qq_43479164的博客

05-23

480

首先是需要有一个request库，然后要把headers改成浏览器，不然默认的pyhton会被知乎给禁止， new一个r来请求网页，吧原来的headers换位浏览器，然后正则匹配标题，至于re.compile() 从compile()函数的定义中，可以看出返回的是一个匹配对象，它单独使用就没有任何意义，需要和findall(), search(), match(）搭配使用。 findall作用...

python动态爬取知乎_python爬虫从小白到高手 Day2 动态页面的爬取

weixin_39610422的博客

12-08

173

今天我们说说动态页面的抓取，动态页面的概念不是说网页上的内容是活动的，而是刷新的内容由Ajax加载，页面的URL没有变化，具体概念问度娘。就以男人都喜欢的美女街拍为例，对象为今日头条。chrome打开今日头条 ->搜索开发者工具->network选项卡图2-1很多条目，各种请求，但Ajax其实有其特殊的请求类型，它叫作xhr。在图6-3中，我们可以发现一个名称以getIndex开头的请...

【Python】简单爬虫抓取知乎专栏文章标题和链接、存储进CSV

memcpy0的博客

08-18

4212

文章目录今天突发奇想，想要爬取一下知乎专栏文章的标题和链接，看看某个作者到底在这大几百几千篇文章中写了什么。

python爬取知乎标题_python爬虫爬取知乎文章标题及评论

weixin_39835178的博客

11-28

936

目的：学习笔记2.首先我们试着爬取下来一篇文章的评论，通过搜索发现在 response里面我们并没有匹配到评论，说明评论是动态加载的。3.此时我们清空请求，收起评论，再次打开评论4.完成上面操作后，我们选择XHR，可以发现点击评论的时候发送了3个请求。5.我们点击带comments的请求，然后在response里搜索可以匹配到评论，返回的是json数据，说明评论请求是这条没错了请求链接在上图，现在...