自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

上海菁数信息技术

专注于大数据开发 (spark hadoop hive hbase )

  • 博客(2)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

转载 从网络上收集的爬虫工具,推荐基于python的工具

爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较

2016-05-20 10:44:20 7308

原创 scrapy-redis基础和介绍

我是基于最新版本(0.6版)的 scrapy-redis 来胡说八道的 一、scrapy-redis(0.6)依赖的环境 Scrapy >= 1.0.0                # 终于过了1版本,这个太重要了,总算坑小了点,感谢那些为了解决各种scrapy与scrapy-redis不兼容做出了贡献的开发者和博主。 redis-py >= 2.10.0 redis serv

2016-05-13 16:17:20 6049 2

qt-unified-windows-x86-4.1.1-online.exe

qt6开源版本的win安装包

2021-08-03

spark 2.3.1 支持Hive Yarn Hadoop 2.7 已编译版本

spark 2.3.1 支持Hive Yarn Hadoop 2.7 已编译版本 可以直接使用

2018-07-27

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错 使用这个修改完成的Hbase类替换掉原来的Hbase类问题全部解决 主要是因为python版本兼容性带来的问题

2017-11-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除