14行代码，爬完丁香园论坛首页

最新推荐文章于 2023-12-27 09:40:00 发布

珈蓝风水

最新推荐文章于 2023-12-27 09:40:00 发布

阅读量1.2k

点赞数

分类专栏：爬虫文章标签：爬虫医疗

本文链接：https://blog.csdn.net/u012156098/article/details/51505276

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近对爬虫很有兴趣，又没项目来让我练手，直到上周五有个想做医疗行业内容创业的老板联系我，给了我一堆网站，说是要做数据挖掘，当时博主就来劲了，说开练就开练。

－－－－－－－－－－分割线－－－－－－－－－－－－－－

项目背景介绍完毕，接下来博主将不定期更新该爬虫的学习，分析和码代码的过程～～

准备工具：

语言：python

库：requests，beautifulsoup

相关工具：firefox ，HttpRequester

调试：ipython

爬虫目标：http://www.dxy.cn/bbs/index.html

First step

——

看看目标网页都有啥

论坛长这样。。。。。。。略丑，医生嘛，突出实用，反正本博主只识字，不知道上面写的啥。。。。。

接下来看看代码：

看来主要内容在这个叫 boardbox 的class 里面，mark 一下 boardbox，

接下来看看这里面都有些啥呢：

主要的标签都在这里了。。。。

内容都在这里面了

Second step

——-

直接上代码：

来吧，骚年，run起来～～～

本章总结：python 就是屌，轮子多了就是好，两库上场，没有什么爬不了～～

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

珈蓝风水

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬虫 -----beautifulsoup、Xpath、re （二）附爬取丁香园用户名以及回复内容

疯子书生的博客

04-20

562

目录1.Xpath简介1.1使用流程：1.2Xpath常用的路径表达式1.3 使用lxml解析2 实战：爬取丁香园-用户名和回复内容2.1 获取url的html2.2 lxml解析html2.3 利用Xpath表达式获取user和content（完成xpath的语句）2.4 保存爬取的内容 1.Xpath简介 XPath即为XML路径语言（XML Path Language），它是一种用来确定XM...

爬虫练手——使用Beautiful Soup、XPath分别获取丁香园论坛回复内容

YingWGY的博客

04-09

520

简单整点吧简单的说，Beautiful Soup就是Python的一个html或xml的解析库，可以用来从网页中提取数据。 BeautifulSoup在解析时实际上以来解析器，它除了支持Python标准库中的html解析器外，还支持一些第三方解析器（比如lxml）。用法介绍就看文档和一些书籍就好了，推荐崔庆才的《 Python3网络爬虫开发实战》。再说说XPath，全称是XML Path La...

参与评论您还未登录，请先登录后发表或查看评论

爬虫(2)之 Xpath（爬取丁香园）

yzhua_777的博客

04-24

437

Xpath常用的路径表达式： XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。在XPath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。 XML文档是被作为节点树来对待的。 XPath使用路径表达式在XML文档中选取节点。节点是通过沿着路径选取的。下面列出了最常用的路径表达式： node...

爬虫基础（二）

the_harder_to_love的博客

04-09

204

2.1 Session 2.2 Cookie 2.3 爬取丁香园论坛的回复内容 ''' 爬取丁香园论坛的回复内容 ''' import requests from pyquery import PyQuery as pq BASE_URL = 'http://www.dxy.cn/bbs/thread/626626#626626' def get_replies(): html =...

14行代码AC——1017 A除以B (20分)（大数运算+讲解）

weixin_43899069的博客

11-27

1052

立志用更少的代码做更高效的表达 Pat乙级最优化代码+题解+分析汇总——>传送门本题要求计算 A/B，其中 A 是不超过 1000 位的正整数，B 是 1 位正整数。你需要输出商数 Q 和余数 R，使得 A=B×Q+R 成立。输入格式：输入在一行中依次给出 A 和 B，中间以 1 空格分隔。输出格式：在一行中依次输出 Q 和 R，中间以 1 空格分隔。输入样例： 123456789050987654321 7 输出样例： 17636684150141093474 3

14行代码AC_Zero Array（思维）

weixin_43899069的博客

11-18

763

立志用更少的代码做更高效的表达 You are given an array a1,a2,…,an.In one operation you can choose two elements ai and aj (i≠j) and decrease each of them by one.You need to check whether it is possible to make all the elements equal to zero or not. Input The first line

基于python的疫情数据爬虫及可视化源码+项目说明（丁香园疫情数据爬取+echarts可视化+flask框架）.zip

最新发布

01-24

【资源说明】 1、该资源包括项目的全部源码，下载可以直接使用！ 2、本项目适合作为计算机、数学、电子信息等...基于python的疫情数据爬虫及可视化源码+项目说明（丁香园疫情数据爬取+echarts可视化+flask框架）.zip

python爬虫-----学习bs，爬取丁香园特定帖子的所有回复内容

weixin_40734650的博客

03-03

534

beautifsoup----爬虫数据挖掘又一大利器 – 安装： conda install beautifulsoup4 或者 pip install beautifulsoup4(这个4代表着bs的版本) 这里我用了conda安装： – beautiful soup： BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库. 官方文档：Beautiful...

Datawhale爬虫(第5期)入门第四练，用lxml+xpath提取丁香园指定帖子的回复！

weixin_39906001的博客

03-04

449

Lxml 和 Xpath 学习： Lxml库：Lxml库是基于libxml2 这一个XML 解析库的Python 封装。该模块使用C语言编写，解析速度比BeautifulSoup 更快。Lxml库使用Xpath语法解析定位网页数据。 1.Lxml库解析网页数据快，还有一个非常实用的功能就是自动修正 HTML 代码。 2.Lxml 除了直接读取字符串，还支持从本地文件中提取内容，例如本地编辑的hm...

python 爬虫爬取疫情数据，爬虫思路和技术你全都有哈（一）

m0_65833575的博客

08-11

5406

爬起疫情数据，有两个网址：在这两个中，丁香园的爬虫相对简单一点，所以今天就展示一哈，百度的，哈哈哈。毕竟挑战一哈自己，看看有啥缺陷。不过确实在找数据方面，存在很多的问题，有很多地方需要学习哈。但是看完这篇后，你再写丁香园的爬虫代码的时候，就很简单了。今日任务爬虫爬取疫情数据，我们向着百度疫情API伸出了万恶的魔爪哈！！！..................

爬虫丁香园

qq_39349120的博客

12-27

400

【代码】爬虫丁香园。

丁香园样式库DXY-UI正式开源！

weixin_33738578的博客

11-06

179

DXY-UI 是什么？一套适用于桌面端的样式库，包含文本、列表、表格、表单、栅格系统等基础样式和十余个组件，兼容主流浏览器及IE10+。 DXY-UI 专注于样式，不涉及组件，无“侵入性”，独立于项目的技术选型。项目背景世界上已经有了太多美丽的轮子，但这不是后人停止造轮子的理由。丁香园的产品线十分庞杂，在开发过程中，我们沉淀出了一套自己的视觉设计，用于统一各个产品的样式开发，减少重复设计和开发...

0304网页爬虫-使用lxml+xpath爬取丁香园回复内容

Guiabbey的博客

03-04

266

1、XPath XPath的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用XPath来选择。 2、XPath常用规则 3、实战 from lxml import etree import requests def get_html(url, headers):...

教科书式爬虫：由浅入深爬取丁香园

简说Python的博客

09-17

1447

前言X先生最近太忙了，昨天刚刚完成数学建模比赛（过程很复杂，很辛酸），明天或后天给大家分享数学建模掉头发的故事，马上上课，天天几乎满课，时间真的滴滴答答的在走，恐慌和抱怨...

python爬虫论坛代码_如何使用Python爬虫抓取论坛关键字出现频率！

weixin_39707851的博客

12-04

347

前言：之前学习了用python爬虫的基本知识，现在计划用爬虫去做一些实际的数据统计功能。由于前段时间演员的诞生带火了几个年轻的实力派演员，想用爬虫程序搜索某论坛中对于某些演员的讨论热度，并按照日期统计每天的讨论量。这个项目总共分为两步：1.获取所有帖子的链接：将最近一个月内的帖子链接保存到数组中2.从回帖中搜索演员名字：从数组中打开链接，翻出该链接的所有回帖，在回帖中查找演员的名字获取所有帖子...

python3爬虫模拟登录_python3爬虫——模拟登录丁香园并提取信息

weixin_35803436的博客

02-03

298

上一篇：模拟登录QQ邮箱ps:在进行模拟登录时，输入账号密码后，会弹出验证码，目前还没有解决模拟验证，所以本教程需要进行人工验证。代码：from selenium import webdriverimport timefrom lxml import etree#模拟登陆丁香园网站browser = webdriver.Firefox()browser.get('https://auth.dxy....

Day7-模拟登录丁香园，爬取所有用户基本信息和回复内容

weixin_40734650的博客

03-10

498

最后一天了，趁着周末把DataWhale爬虫7天训练最后的task做出来了。前几天的学习，从学习http，post和get两种请求方法开始，到学习简单urllib和requests请求一个网页进行简单爬虫，再到学习了正则，bs，xpath等来对数据进行提取，用selenium进行模拟163邮箱登录等，最后一天的任务算是对前六天学习的检验把。模拟登录丁香园，我们使用的还是selenium进行自...

[转载] python+selenium定时爬取丁香园的新冠病毒每天的数据，并制作出类似的地图（部署到云服务器）

u013946150的博客

04-28

647

参考链接： Python vars() python+selenium定时爬取丁香园的新冠病毒每天的数据，并制作出类似的地图（部署到云服务器）声明：仅供技术交流，请勿用于非法用途，如有其它非法用途造成损失，和本博客无关目录 python+selenium定时爬取丁香园的新冠病毒每天的数据，并制作出类似的地图（部署到云服务器）前言一、准备二、爬取数据+画图第一步、分析页面第二步、编写代码第三步、结果展示三、部署到云服务器1.定时运行获取数据2.通过微信获取地图（htm...

python爬虫入门之丁香园

为邻

03-03

1168

xhr 提取json即可结果中的一些标签使用正则替换即可

新冠疫情数据可视化：丁香园爬虫与图表展示

"这篇学习记录主要探讨了如何利用Python进行新冠疫情数据的爬取与可视化，包括从丁香园网站抓取数据，然后展示全国疫情地图、湖北疫情分布以及疫情增长趋势。通过requests模块发送HTTP请求，re模块进行数据解析，...