本周工作报告:
上周的计划由于国庆假期,代码部分已完成,但论文阅读进展不大,所以没有更新论文阅读记录,完成的工作如下:
1、按照python参考书内容编写了新闻爬虫,爬取了上海对外经贸大学新闻网的新闻,保存了相关新闻的标题、时间、内容等信息,并可对保存的信息进行进一步查询,同时对python数据结构有了进一步了解,遇到的相关问题附上记录链接。
代码见GitHub中,名为代码文件夹下的CrawlNews_example.ipynb(需要jupyter notebook打开运行)
2、按照上述爬虫示例代码编写了书籍信息爬虫,针对网易云阅读网站爬取了书籍相关的书名、作者、价格及评分等相关内容。
代码见GitHub中,名为代码文件夹下的CrawlNews_week2.ipynb
GitHub地址:https://github.com/Peiklong/DIPRE.git
问题记录及代码地址:
更改jupyter默认工作路径:https://blog.csdn.net/qq_39591838/article/details/102095026
python中的三个基本数据类型:https://blog.csdn.net/qq_39591838/article/details/102095677
python中__name__的使用:https://blog.csdn.net/qq_39591838/article/details/102096030
Github代码地址:https://github.com/Peiklong/DIPRE.git
下周工作计划:
1、继续阅读未完成的论文部分,并做好论文阅读记录。
2、尝试将爬取的书籍或新闻的相关信息存成csv文件或存入mysql数据库。
PS:根据现有的进展,预计完成该任务的时间在10月25日