爬虫：信息提取的一般方法

yorkmass☭

于 2018-11-20 21:20:51 发布

阅读量1.5k

点赞数

分类专栏： python 文章标签：爬虫信息提取 python 标签 html

本文链接：https://blog.csdn.net/qq_36949176/article/details/84310054

版权

python 专栏收录该内容

26 篇文章 1 订阅

订阅专栏

信息提取的一般方法

方法一：完整解析信息的标记形式，再提取关键信息。

XML JSON YAML

需要标记解析器例如：bs4库的标签树遍历

优点：信息解析准确

缺点：提取过程繁琐，速度慢

方法二：无视标记形式，直接搜索关键信息。

搜索

对信息的文本查找函数即可

优点：提取过程简洁，速度快

缺点：提取结果准确性与信息内容相关

融合方法

融合方法：结合形式解析与搜索方法，提取关键信息。

XML JSON YAML 搜索

需要标记解析器及文本查找函数。

实例

提取HTML中所有URL链接

思路：1）搜索到所有<a>标签

2）解析<a>标签格式，提取href后的链接内容。

>>> from bs4 import BeautifulSoup
>>> import requests
>>> r=requests.get("https://www.baidu.com/?tn=98012088_5_dg&ch=12")
>>> demo=r.text
>>> soup=BeautifulSoup(demo,"html.parser")
>>> for link in soup.find_all('a'):
	print(link.get('href'))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yorkmass☭

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

参与评论您还未登录，请先登录后发表或查看评论

博客

eclipse自动提示设置方法和优化（去除空格自动补全）

01-17

2万+

Eclipse自动提示设置我们打开Eclipse配置自动提示,点击window--Preferences界面首先配置java文件的自动提示点击java--Editor--Content Assist，把Auto activation triggers for Java里面的内容改为：.abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVW...

博客

爬虫：淘宝商品信息定向爬虫

11-24

1785

功能描述目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格。理解：淘宝的搜索接口翻页的处理技术路线：requests-re准备，安排！我们先搜索：裙子，查看浏览器返回的链接信息起始页：https://s.taobao.com/search?q=裙子&imgfile=&commend=all&ssid=s5-e&a...

博客

把自己电脑做成web服务器+内网穿透并发布网页

11-24

2万+

把自己电脑做成web服务器加内网穿透发布网站。前言：由于学校WiFi为内网ip，且WiFi 为动态ip 由于为动态IP，每次登陆都会换IP地址，所以建议网线连接或者一直开机不断网，否则每次开机都要重新设置。本方法采用内网穿透，将本机的IP地址映射到云服务器，并采用内网穿透服务商的提供的域名，我的服务器如果可以搭好的话再给大家做内网穿透才能映射到自己的域名。还是建议同学们买自己的服务器可以宿舍合...

博客

将自己的网站上传至服务器并通过域名进行访问

10-31

1万+

我们想要让大家都能通过域名访问自己的网站，首先我们需要准备一个域名、以及一个服务器域名购买可以通过腾讯云，阿里云，等，我用的是腾讯云服务器和腾讯云购买的域名注意：腾讯云买的域名用阿里云服务器备案需要腾讯云授权码，阿里云买的域名去腾讯云服务器备案同理。但是域名解析的话，用哪个服务器都可以解析，无论是腾讯云，阿里云...一般的网站都需要进行备案，备案后你的网站就合法了，可以通过域名正常...

博客

Android Studio的下载、安装及配置教程(自带模拟器与夜神模拟器调试)

10-06

4万+

Android Studio下载，可以去Android studio 中文社区下载最新版本以及SDK：http://www.android-studio.org/SDK和Android Studio一定要匹配，不然容易出问题 ! Android Studio 点击绿色按钮下载923MB，SDK点击最下面蓝色的字体链接下载，Windows版本149MB。你还需要安装java 环境。有关如...

博客

初级工程师面经（Java)

04-10

336

1、静态变量没有初始化默认为02、ArrayList<Object> arraylist=new ArrayList<String>();不行，泛型必须严格一致3.redis 五种类型string hash list set 有序set4.mybatis中${}和#{}区别，#可以防止注入5.redis缓存击穿和缓存雪崩缓存击穿：缓存击穿是指缓存中没有但数据库中有的数据（一般是缓存时间到期）这时由于并发用户特别多，同时读缓存没读到数据，又同时去数据库去取数据，引起数据

博客

手写Synchronized锁

04-07

329

package interview;import sun.misc.Unsafe;import java.util.concurrent.ConcurrentLinkedQueue;import java.util.concurrent.locks.LockSupport;public class MyLock { private volatile int state=0; private Thread lockHolder; private ConcurrentLi.

博客

Netty源码相关理解和基于netty的RPC实现

03-09

315

Netty源码1、pipeline调用Handler解析设计模式中有一种设计模式叫做责任链模式，netty pipeline就是责任链模式的一种实现，链上每个节点按照不同的添加方式和添加顺序排列在链上不同的位置，这条链是一条双向链，在netty中用户创建的handler的都会通过DefaultChannelHandlerContext包装成链上的节点。DefaultChannelPipelinenetty默认创建的pipeline类型是DefaultChannelPipeline，Defau

博客

Shiro登陆授权相关理解

03-09

264

shiro登陆授权原理 shiro在创建用户的时候根据用户输入密码、生成随机salt值（存入数据库），加密算法和迭代次数生成加密的密码存储到数据库中 shiro进行登陆的时候，首先在自定义realm的doGetAuthenticationInfo方法中从前台的token判断用户是否存在，然后把所有的用户数据从数据库取出来，取出salt和经过加密的密码。shiro根据用户输入的密码经过salt和shiro配置号的相同的加密算法和迭代次数运算得到的密码和realm中取得的密码进行比对，一样则认证

博客

Layui中引入Echarts模块实现图表显示

04-18

7410

首先我们需要去Echarts官网下载Echarts图表源码，核心文件为这两个接着我们修改echarts.js代码开头的修改为(function (global, factory) { typeof exports === 'object' && typeof module !== 'undefined' ? factory(exports) : typeof...

博客

Springboot Excel批量导入数据

04-18

1430

POI处理Excel <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>3.9</version> &...

博客

Java正则表达式

03-14

394

Java.util.regex包匹配规则：从左到右依次匹配\为转义字符我们要匹配字符串“a&c” 正则表达式编写为"a\&c"，转为java字符串还要加上一个\转义为“a\\&c"如果匹配“a和c"，非ASCII字符--和字需要用\u###表示为”a\u548cc".可以匹配任意一个字符，占位\d可以匹配一个数字\w可以匹配一个字母、数字...

博客

SpringBoot+Shiro+MybatisPlus+Layui实现的后台管理系统

03-11

1701

项目地址 Yorkmass觉得有帮助就去点个Star啊！毕设救星！！！通用后台管理系统主要技术springboot shiro mybatisPlus layui实现功能菜单管理权限管理用户管理角色管理部门管理缓存管理日志管理数据库管理--使用druid 发布公告环境数据库mysql 5.6示例和使用所有用户初始密码123456...

博客

Spring boot如何打包部署项目

02-20

405

我们在IDEA写好的Spring boot项目，如何打包部署？可打包为jar包或者war包jar包项目完整pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/...

博客

Spring boot AOP统一日志管理

02-20

477

我们需要使用日志和aop管理，日志我们用log4j记录，我们需要在pom.xml里面引入log4j和aop其中日志，因为spring boot starter里面的logging包依赖着log4j我们需要去掉这个logging依赖，然后重新导入log4j。使用mvn denpendency:tree命令可以查看依赖树导入log4j的时候要注意版本问题，pom.xml文件如果没有声明的话...

博客

Spring boot多数据源整合之分布式事务解决方案 jta

02-19

612

我们再pom里面导入依赖  <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-jta-atomiko...

博客

云开发：微信小程序开发-组件化开发

01-07

522

云开发之：微信小程序组件化开发下图是微信小程序的目录结构，components文件夹主要存放组件的代码我们在components目录下新建一个playlist组件（是一个文件夹，结构和小程序页面一样）playlist.js其中properties的参数，playlist用来接收传入的一个对象// components/playlist/playlist....

博客

PHP基本语法学习笔记

12-13

308

PHP学习笔记<?php/** * Created by PhpStorm. * User: Administrator * Date: 2018/12/23 * Time: 14:39 */function test_input($data) { $data = trim($data); $data = stripslashes($data); ...

博客

C++ 万年历、生肖判断、计算第几天

12-09

2188

1、输入一个年、月、日并计算它是本年度第几天2、输入任何一年份，给出该年出生人的属性，如1945年出生人的属性为“鸡”3、显示输入2000-2099年的任何一年的某一月的月历，如下图problem1#include <iostream>using namespace std;int main(){ int year, month, day, num; b...

博客

微信小程序云开发文档

11-30

975

https://www.w3cschool.cn/weixinapp/weixinapp-app.html