晨风中的沙-CSDN博客

转载如何判断使用lr和svm哪个效果好？

源自吴恩达的机器学习课程：n是数据中特征的数量 m是样本数1、如果n相对于m来说很大，则使用LR算法或者不带核函数的SVM（线性分类）n远大于m，n=10000，m=10-10002、如果n很小，m的数量适中（n=1-1000，m=10-10000）使用带有核函数的SVM算法3、如果n很小，m很大（n=1-1000，m=50000+）增加更多的feature然后使用LR算法或者不带核函数的SV...

2018-07-01 18:27:20 618

原创 mysql去除重复数据，只保留一条。

之前写过的爬虫里面，因为种种原因出现了一些重复的数据需要删除掉。然后发现mysql并没有直接的去重功能，要自己写。查过许多博客之后发现可以这么写。删除ppeople 重复的数据，然后重复数据中保留id最小的那一条数据。 delete from people where peopleId in (select peopleId from people group by peopleId

2017-12-07 14:48:15 5825 1

原创 python数字字符串左侧补零

因为做新闻爬虫，url里面0-9的日期要左侧加零。经过查询之后得到了两种方法。一、先设一个足够大的数，比如1000000，然后加上当前的数字比如9，得到1000009，然后转化为字符串获取第6、7位即可。下面以1000为例。 k=1000 #k是用来获取01 02 03 字符串的 1001 截取第三四位即可 for i in range(1,31): strtime=i

2017-11-23 21:09:36 8730

转载 Beautifulsoup去除特定标签

最近写新闻爬虫，有时候会出现奇怪的格式。比如script乱入，然后对于爬取到的信息会增加许多干扰。查询相关知识后发现，这里可以使用Beautifulsoup的功能来剔除掉特定标签。 soup = BeautifulSoup(r.text, "lxml") #去除soup里面的script和style标签 [s.extract() for s in soup('script')]

2017-11-18 18:07:15 11924

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 如何判断使用lr和svm哪个效果好？

原创 mysql去除重复数据，只保留一条。

原创 python数字字符串左侧补零

转载 Beautifulsoup去除特定标签

空空如也

空空如也

转载如何判断使用lr和svm哪个效果好？