- 博客(4)
- 收藏
- 关注
原创 世纪佳缘
#世纪佳缘(但数据少,采集男的好像仅有3000个,其中好像还有重复的)import requestsimport timeimport socketimport jsonfrom pymongo import MongoClientMC = MongoClient("192.168.210.45")table = MC.sjjy.cs09def fetchURL(url): ...
2019-10-12 11:59:35
473
原创 途牛(酒店)
#一、采集详细 页面(get请求+多线程),酒店名、详细页面url、地址、星级/等级、装修年限、综合评分、四项评分注意!!! :酒店所属区域(主城九区)、景区......不要用经纬度(由于不知每个区域边界的经纬度,用距离算不正确 渝中区太小 酒店景点又集中) 采集图中1和2,1是具体的描述用分词确定位置 2是途牛网站分的,结合1和2得最终位置import jwdsjimport ...
2019-10-12 11:50:19
279
1
原创 珍爱网
介绍:采集珍爱网(仅开始学爬虫,太多方法都不会)必须要有一个账号,当采集多了后会受到限制 要求通过手机App上传身份证等详细信息 列表页是post请求 有一个参数找不到规律,详情页面不需要登录 get请求即可 方式一:模拟登录需要:珍爱网账号 数据:红色部分,可采集:黄色部分 限制:没有上传照片的用户的,详细页面的链接采不了 (可以通过添加 点击-采集链接 的部分采...
2019-10-12 11:08:51
691
1
EXCEL
1.合并为一个表1Sheet2.合并为一个表多Sheet3.表格转图片# 1.合并为一个表1Sheet需要合并的表在同一文件夹下,在文件夹中新建excel,打开,sheet1-左键-查看代码Sub 合并当前目录下所有工作簿的全部工作表()Dim MyPath, MyName, AWbNameDim Wb As Workbook, WbN As StringDim...
2019-07-24 11:33:38
169
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人