python 爬虫
chen70956
这个作者很懒,什么都没留下…
展开
-
爬虫入门学习总结(1)——使用正侧表达式并写入CSV
目标:抓取目标网站用正侧表达式并写入CSV里。 进度:基本达成目标,但还是有些小问题没有解决 存在的疑问: ide中调用执行文件不能显示完整 有些网站不能读取完 为什么会有换位符号,是因为js解析吗 还没解决的技术性问题: yield的具体用法 CSV写入为什么没有头 更加深入的正侧表达式使用方法 json写入 import json import requests from ...原创 2018-09-20 13:28:00 · 200 阅读 · 0 评论 -
爬虫入门学习总结(3)——微博爬虫和写入CSV
目标:爬取微博内容并写入CSV 进度:基本达成目标,但效果有限,所以这版本定为第一版,后面继续完善 存在的疑问: 是没有用代理池,然后爬一个人很顺利的,然后到后面的人都爬取不了 json转CSV只能通过字典,但字典 微博多个标签重复不知道怎么解决 还没解决的技术性问题: 触发了微博的反爬虫机制 试一下用微博接口读取 还有视频,转发文章,点开全文没有爬取到 标签下面还有很多其他标签...原创 2018-10-04 17:54:06 · 645 阅读 · 0 评论 -
爬虫入门学习总结(2)——CSV批量上传到织梦CMS
目标:把CSV写入到织梦CMS文章,达到批量上传的效果 进度:基本达成目标,但还是有些小问题没有解决 存在的疑问: 分隔符的处理为什么有点乱 函数还是用得不熟 还没解决的技术性问题: 文字的转码问题 能不能直接写入数据库里 分隔符的处理 插入分隔符或者其他补充内容 下一步目标: 微博ajax的读取写入 关于CMS的写入找了很久,最后找到了一个post的方法, 整体来说就是利用...原创 2018-09-30 09:54:39 · 568 阅读 · 0 评论