天池黄金联赛
靖-Drei
这个作者很懒,什么都没留下…
展开
-
ReplaceItem2.java
ReplaceItem2.java将final_example1.txt中的每个产品的id替换为其分词结果(分词结果用空格隔开,产品用逗号隔开),(输出结果:ExampleToTerms1.txt) 将final_example1.txt中的产品与dim_items.txt中产品做相似度排序,取(200*0.6/(0.6+0.6)条)final_example1_simila.txt中的是fin原创 2015-11-05 16:16:07 · 473 阅读 · 0 评论 -
选取前200条记录,冒泡排序
降序排,a表示待排序的数组,b记录a对应原先的位置,跟着一起变化 for (int i = 0; i < 200; i++)中200表示做了200次冒泡排序,这样节省很多时间,没进行一次冒泡排序,最大值会排到最前面,再排一次,次大的会在第二个位置,这样200次就能取到由高到低200条,对于大的数组来说,不用全部排序就可知结果 public static double[] bubbleSort原创 2015-10-14 11:38:02 · 564 阅读 · 0 评论 -
去除每行开头可能出现的逗号
public class ad { public static void main(String[] args) { String s1="2896944,1283323,2995617,1344872,1632680,3233552,2504276,844798,2084729,2275730,2364536,742409,1940753,1880644,23921原创 2015-11-02 15:01:26 · 968 阅读 · 0 评论 -
测试文本中可能出现的空行
测试文本 import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStreamReader;import java.io.UnsupportedEncodi原创 2015-11-02 15:09:34 · 434 阅读 · 0 评论 -
将具体日期划分到季节
public class ab { public static void main(String[] args) { String[] a1 = new String [4]; int count1=0,count2=0,count3=0,count4=0; a1[0]="20140825"; a1[1]="201411原创 2015-11-02 15:14:32 · 657 阅读 · 0 评论 -
判断两个日子是否在一周内
import java.util.Calendar;import java.util.Date;public class Data { public static void main(String[] args) {// Calendar calender = Calendar.getInstance();// Date date = new Date();原创 2015-11-02 15:19:19 · 973 阅读 · 0 评论 -
淘宝穿衣搭配算法_方案四
用户购买记录user_bought_history.txt中第二项产品id是有序的,我们由test_items.txt中需要被预测的商品,到用户记录中查找,(可能查找不到,后期考虑将其替代为test_item分词结果相似的产品库中的商品)定位到那几个连续的几行,把第一项用户id提取出来, 在将每个用户购买 的所有商品聚到一起 buyedSameTime2.txt去除它自己,同一时期其他用户购买其原创 2015-11-02 14:51:55 · 1447 阅读 · 0 评论 -
预测产品的分词结果、相似度降序排序.
CommonCount1.java将预测产品的分词结果和每行都算相似度(分词重合的个数除以预测产品的分词个数)将一行产品的相似度最高值保存为该行的相似度值,然后根据相似度降序排序. 将大于相似度大于0.8的前100条搭配套餐的行号记录下来(输出文件:line_0.8) 将大于相似度大于0.6的前100条搭配套餐的行号记录下来。(输出文件:line_0.6) 将大于相似度大于0.6的前10原创 2015-11-02 17:19:49 · 819 阅读 · 0 评论 -
统计用户购买该商品的季节
package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileWriter;import java.io.IOException;import java.io.InputStreamReader原创 2015-11-02 16:46:38 · 431 阅读 · 0 评论 -
统计同时购买的商品和购买时间
package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileWriter;import java.io.IOException;import java.io.InputStreamReader原创 2015-11-02 16:57:32 · 692 阅读 · 0 评论 -
将原先的matchsets中的产品替换为它的分词结果
package test;import java.io.BufferedReader;import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.原创 2015-11-02 17:15:48 · 423 阅读 · 0 评论 -
两个数组相加,保持元素原序,删除相同元素
package test;import java.util.ArrayList;import java.util.Arrays;import java.util.HashSet;import java.util.Iterator;import java.util.List;import java.util.Set;public class Append { private sta原创 2015-11-02 15:32:38 · 576 阅读 · 0 评论 -
找到预测商品的购买者
package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileWriter;import java.io.IOException;import java.io.InputStreamReader原创 2015-11-02 16:52:08 · 762 阅读 · 0 评论 -
对商品类别进行聚类
package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileWriter;import java.io.IOException;import java.io.InputStreamReader原创 2015-11-02 16:49:21 · 2627 阅读 · 0 评论 -
淘宝穿衣搭配算法_方案三
ReplaceItem1.java将原先的matchsets中的产品替换为它的分词结果,分词结果以空格隔开,产品与产品间用逗号隔开,输出结果ToTerms1.txt。为了之后比较每个产品与预测产品的相似度,排除方案二中出现多可替代产品,而造成该搭配的相似度虚高的情况(比只有一种产品,但是它们分词重合的面比较广) CommonCount1.java将预测产品的分词结果和每行都算相似度(分词重合的个数原创 2015-10-14 11:43:01 · 3221 阅读 · 5 评论 -
淘宝穿衣搭配算法_方案二
test_item预测的item由id变成它对应的分词结果,代表的是预测的商品是怎么样的一个商品 (test_IdToItem.java)IdToItem.txt ToTerms.txt将dim_fashion_matchsets中各搭配的item由id变为dim_items.txt中的对应的分词 上面两者做相似度匹配,记录行号,将推荐搭配的行号,按相似度由高到低推荐给它,推荐结果line.tx原创 2015-10-09 20:57:52 · 2379 阅读 · 0 评论 -
ChoseFirst.java
ChoseFirst.java(输出结果ExampleToTerms2.txt)将ExampleToTerms1.txt中的第一个分词结果提取出来,因为后期看到两个类似的推荐搭配,产品库中与它们相似的一些产品可能有很大一部分重复,由于这部分先前写的排序算法效果不佳,后期可以在各种搭配的推荐商品都可以尝试地推荐一部分类似的 package test;import java.io.BufferedRea原创 2015-11-05 16:16:59 · 453 阅读 · 0 评论 -
ToFinal2.java
ToFinal2.java 格式转换Result4.txt ->final4.txtpackage test;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileRead原创 2015-11-05 16:19:40 · 419 阅读 · 0 评论 -
ForeResult.java
ForeResult.java(输出:Result2.txt)将ExampleToTerms2.txt中到产品库匹配最相似的200条package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileWr原创 2015-11-05 16:18:03 · 757 阅读 · 0 评论 -
剔除同类产品
SelectTop200_1.java根据行号找到相应的搭配套餐,剔除同类产品,将其搭配产品输出到文件(final_example.txt)package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.Fi原创 2015-11-05 15:33:17 · 412 阅读 · 0 评论 -
Match_ToTerm.java
Match_ToTerm.java将match里的东西都变成分词结果,分词空格隔开,产品间可替代还是用逗号,搭配用;隔开,输出文件ToTerms2.txt MatchDeleteLine.txt,输出文件ToTerms3.txt,将dim_fashion_matches.txt中第一列删除。package test;import java.io.BufferedReader;import j原创 2015-11-05 16:13:02 · 626 阅读 · 0 评论 -
统计各推荐组合中的某个商品与预测商品的相似度(最高相似度)
CommonCount2.java统计各推荐组合中的某个商品与预测商品的相似度(最高相似度)输出结果:simila.txt package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileWriter原创 2015-11-05 15:52:12 · 1744 阅读 · 0 评论 -
SelectTop200_3.java
SelectTop200_3.java 输出文件final_example1.simila.txt,是final_example1.txt对应产品的相似度package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import jav原创 2015-11-05 16:15:03 · 459 阅读 · 0 评论 -
产品id替换为其分词结果
ReplaceItem2.java将final_example中的每个产品的id替换为其分词结果(分词结果用空格隔开,产品用逗号隔开),(输出结果:ExampleToTerms.txt) package test;import java.io.BufferedReader;import java.io.ByteArrayInputStream;import java.io.ByteArrayOu原创 2015-11-05 15:42:20 · 474 阅读 · 0 评论 -
统计各推荐组合中第几个是该组合中与预测商品相似度最高的商品
CommonCount3.java统计各推荐组合中第几个是该组合中与预测商品相似度最高的商品,输出(simila_place.txt)与simila.txt相对应(之后要将该商品与其可替代商品剔除)1表示b[1],即该行第二个产品 package test;import java.io.BufferedReader;import java.io.FileInputStream;import ja原创 2015-11-05 16:10:18 · 559 阅读 · 0 评论 -
SelectTop200_2.java
SelectTop200_2.java输出文件final_example1.txt,排除原先因为相似度很像,而cat不同而没有排除的商品,即找到该搭配组合中一个商品跟被预测商品很像,但是它们的cat不同 package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotF原创 2015-11-05 16:14:03 · 464 阅读 · 0 评论 -
RemoveEnd.java
RemoveEnd.java(输出:Result4.txt)将Result2.txt最后的分号摘掉package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileWriter;import java原创 2015-11-05 16:18:54 · 651 阅读 · 0 评论 -
淘宝穿衣搭配算法_方案一
ToCats.txt-,将预测的item由id变成它对应的类别 ToCatwithTime.txt是将dim_fashion_matchsets中各搭配的item由id变为dim_items.txt中的对应的cat加上时间标记,时间标记是为了产出关联规则而加上的 Cat关联结果.txt是由ToCatwithTime.txt得出的关联结果ToTerms.txt将dim_fashion_matchs原创 2015-10-08 20:49:21 · 4338 阅读 · 0 评论 -
淘宝穿衣搭配算法_赛制描述
关于用户历史购买数据:举个简单例子可能会存在用户买了上装A后又买了与之搭配的下装B,配饰C等等。 关于terms:淘宝的商品标题大部分为有规律性的,其中可能会包含风格,款式等信息。 1:最终需要预测的是商品与其他商品的搭配,历史行为数据可以用来挖掘商品间的搭配关系。 2:评测数据是根据达人,专家产出的数据得到的搭配结果。答案集形式:1 2,3,4,5,6,7,8,9,10 3:是的,结合原创 2015-10-08 20:47:26 · 3487 阅读 · 0 评论 -
三个文件每行去重且保持原序叠加
package test;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileWriter;import java.io.IOException;import java.io.InputStreamReader原创 2015-11-02 17:11:18 · 303 阅读 · 0 评论