liuyunaaaaaa-CSDN博客

原创 hive使用文件方式批量导入数据

hive使用文件方式批量导入数据，大量数据快速导入数据库方案

2023-03-07 21:05:07 1390

html<a href='www.some.com'><span>hello </span>world</a>#获取a标签下的文本xpath("//a/text()") # world#获取a标签以及子标签中的内容xpath("//a//text()") # hello world#获取a标签中的连接xpath("//a/@href") # www.some.com即获取标签属性值（位置/@属性）来自： https://w

2020-11-30 13:37:10 31375 2

原创 pycharm 中scrapy框架安装使用

标题 pycharm 中scrapy框架安装使用一、爬虫框架Scrapy1、使用python语言开发的爬虫组件，可以方便的从网站爬取需要的网页数据.2、可以对网页元素进行解析并获取指定的数据，这些数据可以与实体中的属性进行对应。3、 Scrapy的构成(1) 爬虫引擎:用于控制整个爬取的流程(2) 调度器:将请求爬取的网址排列为一个队列。(3) 下载器：从请求的网址中下载网页内容(4) 管道:对爬取的数据进行处理（持久化—保存到文件或者数据库中）(5) 爬虫组件:爬取网页中需要的

2020-11-29 12:19:07 4382

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

liuyunaaaaaa的博客

原创 hive使用文件方式批量导入数据

转载 xpath获取标签属性值

原创 pycharm 中scrapy框架安装使用

空空如也

空空如也