PPTV数据格式描述:
plt int 产品线,取值101,102,103,104,110,111,分别表示ipad,iphone,apad,aphone,windows客户端,网站
uidmd5 string
channelid int
ipvalue string
ipcity string 城市
hour string
minutesec int 分钟秒
vv bigint 观看次数
wt_sec double 观看时长
channel_titlechinese string 频道名称
category_titlechinese string 大分类名称
subcategory_titlechinese string 子分类名称
playbackdurationseconds int 视频长度
directors string
actors string
area string
years string 视频上线年份
description string
dt string 日期
110 b9cc9b9ae7e2faf07dddf7bdc1012aab 23662955 125.86.253.132 重庆 150701 23 3759 1 125.0 直播港澳台-20150701-希腊债务危机对中国有何影响? 焦点新闻 焦点新闻.热点播报 125 NA NA 大陆 0 将一天最主要、最实用的资讯进行有效地编排整理传递给受众,既满足了听众对于信息的渴望,同时也希望对听众给予更多的帮助。
110 905899d72bf06b9b14ba5b8fe4b633db 23662959 125.122.210.149 杭州 150701 23 4232 1 68.0 超级访问-20150701-四位超模倾力加盟 展现私下的另一面 综艺 综艺.大陆综艺 2255 32657,李静|81382,戴军 NA 大陆 2000 明星,是观众永远关注的焦点,《超级访问》是一档访问明星以主持人为主的大型电视娱乐脱口秀栏目。本栏目不但有曾担纲多档综艺节目的主持人李静和著名歌手兼主持人戴军共同主持,还有京城一流的制作班底,大规模投入资金倾力制作《超级访问》被业内人士誉为中国最具原创风格的娱乐谈话节目。 《超级访问》做到了推陈出新、构思巧妙、个性突出。节目每期邀请一位家喻户晓的明星,来到精心设计的演播室,接受主持人全方位的访问。节目把演播室内的明星访谈与大屏幕播放的外景采访相结合,大胆的将娱乐与谈话巧妙融合。 《超级访问》,不一样的访问!电视娱乐脱口秀明星访谈节目《超级访问》将访问进行到底,期待您的关注。
101 af60ff66d2f29a998ba6e14a03893d80 23662959 119.100.35.208 黄石 150701 23 5741 1 1275.0 超级访问-20150701-四位超模倾力加盟 展现私下的另一面 综艺 综艺.大陆综艺 2255 32657,李静|81382,戴军 NA 大陆 2000 明星,是观众永远关注的焦点,《超级访问》是一档访问明星以主持人为主的大型电视娱乐脱口秀栏目。本栏目不但有曾担纲多档综艺节目的主持人李静和著名歌手兼主持人戴军共同主持,还有京城一流的制作班底,大规模投入资金倾力制作《超级访问》被业内人士誉为中国最具原创风格的娱乐谈话节目。 《超级访问》做到了推陈出新、构思巧妙、个性突出。节目每期邀请一位家喻户晓的明星,来到精心设计的演播室,接受主持人全方位的访问。节目把演播室内的明星访谈与大屏幕播放的外景采访相结合,大胆的将娱乐与谈话巧妙融合。 《超级访问》,不一样的访问!电视娱乐脱口秀明星访谈节目《超级访问》将访问进行到底,期待您的关注。
110 b9cc9b9ae7e2faf07dddf7bdc1012aab 23662965 125.86.253.132 重庆 150701 23 4456 1 9.0 直播港澳台-20150701-日本修订离岛放方针 焦点新闻 焦点新闻.热点播报 375 NA NA 大陆 0 将一天最主要、最实用的资讯进行有效地编排整理传递给受众,既满足了听众对于信息的渴望,同时也希望对听众给予更多的帮助。
104 e4363b2de764b7a757ed702e56657943 23662965 180.140.86.225 桂林 150701 23 4602 1 375.0 直播港澳台-20150701-日本修订离岛放方针 焦点新闻 焦点新闻.热点播报 375 NA NA 大陆 0 将一天最主要、最实用的资讯进行有效地编排整理传递给受众,既满足了听众对于信息的渴望,同时也希望对听众给予更多的帮助。
我们按照子分类名称对数据进行划分处理
Set<String>[] set = new HashSet[492];
Map<String,Integer> iMap = new HashMap<String,Integer>();
//Set<String> setx = new HashSet<String>();
//Set<String> sety = new HashSet<String>();
File file = new File("rst_150601");
File outfile = new File("out_3");
InputStreamReader reader;
OutputStreamWriter writer;
reader = new InputStreamReader(new FileInputStream(file),"utf-8");
writer = new OutputStreamWriter(new FileOutputStream(outfile),"utf-8");
String tempString = null;
int line = 0;
int cnt = 0;
BufferedReader br = new BufferedReader(reader);
while ((tempString = br.readLine()) != null) {
//System.out.println("line " + line + ": " + tempString);
line++;
if(line <= 1)continue;
//System.out.println(line);
//writer.write(tempString + "\n");
String[] tem = tempString.split("\t");
//System.out.println(tem.length);
if(tem.length != 19){
// writer.write(tempString + "\n");
// System.out.println(line);
continue;
}
if(!iMap.containsKey(tem[11])){
iMap.put(tem[11], cnt ++);
set[cnt - 1] = new HashSet<String>();
set[cnt - 1].add(tempString);
}
else {
set[iMap.get(tem[11])].add(tempString);
}
//setx.add(tem[9]);
//sety.add(tem[9]);
//if(line == 5000000)break;
}
//System.out.println(tempString);
try{
for(String key : iMap.keySet()){
int sid = iMap.get(key);
if(key.contains("未知")){
System.out.println(key);
key = key.split("/")[0];
}
writer = new OutputStreamWriter(new FileOutputStream(new File("./split/" + key),true),"utf-8");
for(String tKey : set[sid]){
writer.write(tKey + "\n");
}
writer.close();
}
}
catch (FileNotFoundException ee){
ee.printStackTrace();
System.out.println("here");
}
//System.out.println("line:"+line);
reader.close();
writer.close();
最后得到划分后的每个小分类文件
对于分类处理好的小数据,抽取电视剧名称列表,然后根据他获取跟多的外部资源数据。