安和桥要加油-CSDN博客

1.用户价值/活跃度分析https://blog.csdn.net/hellozhxy/article/details/824927592.设计后台列表常见的3个问题http://www.woshipm.com/pd/3261869.html3.如何设计一个好的后台http://www.woshipm.com/pd/2175658.html4.产品体验报告http://www.woshipm.com/evaluating/2110723.html5.站长运营工具汇总http://www.h

2020-08-22 11:06:33 235 1

原创 scrapy爬取数据时出现所有数据都重复问题

目标爬取这个网站的http://www.wdzb.org.cn/forum.php?mod=forumdisplay&fid=99&typeid=34&typeid=34&filter=typeid&page=1（中国老龄网的新闻资讯板块），从新闻列表获取新闻详情页的链接，爬取详情页的内容。spider.py# -*- coding: utf-8 -*...

2020-02-19 21:42:33 3689 5

原创搜索网站设计（原创为小组同学）

2019-06-22 23:33:36 171

原创使用Lucene的Luke查看索引文件index

在使用Lucene中的Luke查看索引文件时报错报错原因解决办法如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入报错原因索引文件以及Luke文件的路径中包含了...

2019-05-20 21:42:49 776

转载从.data文件转为.csv文件

在训练KNN时使用了UCI数据集，里面的数据通常以.data格式存储，在将数据集中的字符串转化为浮点型时出现了以下错误：could not convert string to float: ‘temp’上网查了写资料，说是因为数据中存在空格，因此没法直接转换。源代码如下：for x in range(len(dataset) - 1): for y in range(6...

2019-05-13 20:21:37 20608

原创 scrapy爬虫 extract（）与extract_first()的问题

scrapy爬虫 extract（）与extract_first()的问题在爬艺搜网的展览信息时，遇到展览信息的详情页里的“展览介绍”有点击“展开阅读”按钮，在用以下代码爬取时始终爬不到点击了“展开阅读”之后的数据。网页前端页面：网页源码：原来爬取的代码：item1['description'] = response.xpath('//div[@class="exText"]/tex...

2019-05-08 10:37:57 9440

原创 python scrapy 遇到问题 Spider must return Request, BaseItem, dict or None

出现原因：在没有定义pipelines时，同时处理两个item出现的问题yield item1, item2解决办法：分别写两个yield即可。yield item1 yield item2

2019-05-06 22:13:59 5400

原创 python scrapy 爬虫遇到问题raise ValueError('Missing scheme in request url: %s' % self._url)

在做python scrapy爬虫爬艺搜网站的项目时，遇到了以下问题。File "E:\课程学习文件\大三下册\信息检索\2019.4.45.TW04\yisou1\yisou1\spiders\spider.py", line 61, in new_parse yield scrapy.Request(url, meta={'item2': item2}, callback=sel...

2019-05-06 20:56:29 2871

qq_43231261的博客

转载【无标题】

原创产品学习时遇到的不错的博文，在这里分享保存一下