- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 hive常用语句
1、创建一张外部分区表(分区需要另外添加) CREATE EXTERNAL TABLE `ext_base_click`( `reqid` string, `adslotid` string, `ip` string, `timestamp` string, `adgroupid` string, `lbs` string) PARTITIONED BY ( `d...
2018-02-26 11:49:17 2868 3
原创 spider-java (Jsoup) (媒体信息的爬取)
媒体基础信息爬取实例 GetAppname.java (代码为hive的udf,静态页面的获取) package com.hb.hive.utils; import java.util.Random; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; import org.jsoup.J
2018-02-07 11:30:26 662 1
原创 spider-python (媒体信息的爬取)
环境搭建 selenium-3.8.1+python2.7+chromedriver 具体的搭建方式请百度 参考:http://blog.csdn.net/zxy987872674/article/details/53082896 媒体基础信息爬取实例 app-spider.py # coding: UTF-8 from selenium import webdriver im
2018-02-07 10:52:10 638 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人