数据提取方法

数据分类

  • 区分标准:规律性
  • 规律弱
    • 非结构化数据: html等
    • 处理方法:正则、xpath
  • 规律强
    • 结构化数据:json、xml等
    • 处理方法:转化为python类型

JSON

说明:JSON(JavaScript Object Notation)是一种轻量级数据交换格式,适用于进行数据交互
使用说明:能找到尽量使用返回json数据的url,因为很好转为python内建数据类型
相互转换
  • json字符串<—–>Python数据类型
    • json.loads()
    • json.dumps():右—>左
      • 用途,写入时,将Python数据类型转换
  • 包含json的类文件对象—->Python数据类型
    • json.load()
    • json.dump()
  • 类型转换说明
JSONPython
objectdict
arraylist
stringunicode
number(int)int, long
number(resl)float
trueTrue
falseFalse
nullNone

json教程

正则

==此处只说常用的==
- re.compile():编译
- re.match():从头找一个
- re.search():找一个
- re.findall():找所有
- re.sub():替换
- 原始字符串转义:r(只针对特殊字符,如换行符)
- 贪婪与非贪婪
- 默认贪婪,尽可能多的匹配
正则表达式速查表

XPATH和LXML类库

LXML库

  • python HTML/XML解析器,通过此解析器,导入etree,可以通过XPath,快速定位特定元素和获取节点信息
  • 使用入门
    • 导入lxml的etree库
      • from lxml import etree
    • 利用etree.HTML,将字符串转化为Element对象
    • Element对象,有xpath的方法

XPATH

一门在HTML\XML文档查找信息的语言
- 节点(标签)选择
XPATH官方文档说明

表达式描述
nodename选取此节点所有子节点
/从根节点选取
//从匹配选择当前节点选择文档节点,不考虑位置
.选取当前
..选取当前父节点
@选取属性

- 选取未知节点

通配符描述
*匹配任何元素节点
@*匹配任何属性节点
node()匹配任何类型节点

XML和HTML

  • XML:可扩展标记语言
    • 焦点在数据内容
  • HTML:超文本标记语言
    • 显示数据以及更好的显示
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我已经记录下了您的问题。我会依次回答您的每个问题。 1. 管理信息库是指存储组织管理信息的数据库,它可以用来存储和管理组织的各种信息,如员工信息、客户信息、订单信息等。它的作用是提供方便快捷的信息存储和管理,促进组织内部信息的流通和共享,提高组织的工作效率和管理水平。 2. SNMP的基本组成部分包括管理站、代理和网络元素。管理站是用来管理网络设备的,代理是网络设备上的软件,它们可以向管理站提供设备的状态信息,网络元素则是指被管理的网络设备。 3. 移动手机的数据提取方法有很多种,以下是其中的五种: - 通过数据线将手机连接到电脑上,使用数据恢复软件进行数据提取。 - 使用手机备份软件进行备份,然后将备份文件导出到电脑上进行数据提取。 - 使用云服务进行备份,然后在电脑上登录云账号进行数据提取。 - 使用物理取证设备进行数据提取,如Cellebrite、XRY等。 - 使用虚拟机进行模拟,将手机系统运行在虚拟机中,然后进行数据提取。 4. 在Android设备中,Google Hangouts数据的默认存储位置是在/data/data/com.google.android.talk/databases/目录下。 5. 要确定Google Hangouts中信息的创建者,可以查看消息的详细信息,其中包括消息的发送者和接收者,以及消息的时间戳和内容等信息。 6. 自定义recovery镜像方法是指将自定义的recovery镜像刷入到Android设备中,然后通过recovery模式进行数据提取。这种方法的优点是可以提取已经被删除的数据,且不需要root权限,但是需要一定的技术水平。 7. 选择自定义recovery镜像方法提取数据的原因是因为它可以提取已经被删除的数据,且不需要root权限,而且可以在不影响手机正常使用的情况下进行数据提取,比较安全可靠。但是需要注意的是,操作时需要谨慎,避免误操作导致数据丢失。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值