自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 如何判断使用lr和svm哪个效果好?

源自吴恩达的机器学习课程:n是数据中特征的数量 m是样本数1、如果n相对于m来说很大,则使用LR算法或者不带核函数的SVM(线性分类)n远大于m,n=10000,m=10-10002、如果n很小,m的数量适中(n=1-1000,m=10-10000)使用带有核函数的SVM算法3、如果n很小,m很大(n=1-1000,m=50000+)增加更多的feature然后使用LR算法或者不带核函数的SV...

2018-07-01 18:27:20 617

原创 mysql去除重复数据,只保留一条。

之前写过的爬虫里面,因为种种原因出现了一些重复的数据需要删除掉。然后发现mysql并没有直接的去重功能,要自己写。查过许多博客之后发现可以这么写。删除ppeople 重复的数据,然后重复数据中保留id最小的那一条数据。delete from people where peopleId in (select peopleId from people group by peopleId

2017-12-07 14:48:15 5821 1

原创 python数字字符串左侧补零

因为做新闻爬虫,url里面0-9的日期要左侧加零。经过查询之后得到了两种方法。一、先设一个足够大的数,比如1000000,然后加上当前的数字比如9,得到1000009,然后转化为字符串获取第6、7位即可。下面以1000为例。k=1000 #k是用来获取01 02 03 字符串的 1001 截取第三四位 即可for i in range(1,31): strtime=i

2017-11-23 21:09:36 8727

转载 Beautifulsoup去除特定标签

最近写新闻爬虫,有时候会出现奇怪的格式。比如script乱入,然后对于爬取到的信息会增加许多干扰。查询相关知识后发现,这里可以使用Beautifulsoup的功能来剔除掉特定标签。soup = BeautifulSoup(r.text, "lxml")#去除soup里面的script和style标签[s.extract() for s in soup('script')]

2017-11-18 18:07:15 11919

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除