- 博客(3)
- 收藏
- 关注
原创 PySpider安装问题处理及简单试用
关于爬虫框架PySpider环境搭建。pyspider是Binux做的一个爬虫架构的开源化实现,主要功能有 :1)抓取、更新调度多站点的特定的页面2)需要对页面进行结构化信息提取3)灵活可扩展,稳定可监控Pyspider的优点:1.提供WebUI界面,调试爬虫很方便;2.可以很方便的进行爬取的流程监控和爬虫项目管理;3.支持常见的数据库;4.支持使用PhantomJS,可以抓取JavaScript页面;5.支持优先级定制和定时爬取等功能;缺点:1.针对反爬程度强的网站不擅长;2.超大
2022-07-01 10:56:32 469 1
原创 关于spark的standalone以及高可用安装配置
StandAlone模式的spark部署:第一步:获取spark的安装包1) **下载地址:**http://spark.apache.org/downloads.html 1) 选择spark的发布版本 2.2.0 2) 选择支持的Hadoop版本支持2.7和以后 3) 上述两部选择好之后,会生成一个下载链接.点击下载链接即可. 如果我们在公司遇到这样一种情况,公司以...
2018-10-28 16:02:52 159
转载 关于日志Log的级别问题
关于日志Log的级别问题@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新...
2018-10-28 15:42:55 953
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人