自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

上海菁数信息技术

专注于大数据开发 (spark hadoop hive hbase )

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载从网络上收集的爬虫工具，推荐基于python的工具

爬虫，即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较

2016-05-20 10:44:20 7308

原创 scrapy-redis基础和介绍

我是基于最新版本（0.6版）的 scrapy-redis 来胡说八道的一、scrapy-redis（0.6）依赖的环境 Scrapy >= 1.0.0 # 终于过了1版本，这个太重要了，总算坑小了点，感谢那些为了解决各种scrapy与scrapy-redis不兼容做出了贡献的开发者和博主。 redis-py >= 2.10.0 redis serv

2016-05-13 16:17:20 6049 2

qt-unified-windows-x86-4.1.1-online.exe

qt6开源版本的win安装包

2021-08-03

spark 2.3.1 支持Hive Yarn Hadoop 2.7 已编译版本

spark 2.3.1 支持Hive Yarn Hadoop 2.7 已编译版本可以直接使用

2018-07-27

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错使用这个修改完成的Hbase类替换掉原来的Hbase类问题全部解决主要是因为python版本兼容性带来的问题

2017-11-16

代码如下请问我函数里的打印长度为什么为0和main中的长度为10不一样

2015-08-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除