- 博客(4)
- 收藏
- 关注
原创 利用 scrapy 抓取信息, xpath 选择节点返回结果为空
摘自 scrapy 官方文档在处理爬虫项目时,完全去掉命名空间而仅仅处理元素名字,写更多简单/实用的XPath会方便很多。你可以为此使用 Selector.remove_namespaces() 方法。以Github博客的atom订阅来解释这个情况。首先,我们使用想爬取的url来打开shell:$ scrapy shell https://github.com/blog.atom...
2018-11-21 13:15:32 5293
原创 scrapy方法间的数据传递(多层传递)
有个爬虫需要读取数据库的url进行循环爬取,同时还要把url作为字段值来标记爬取到的数据归属于哪个url,需要涉及到爬虫方法间的数据传递,传递方法meta百度一下全都是,但是应用到我的需求的时候出现了不可描述的错误:def start_requests(self): user_in_sql_list = [] # 这是列表是从数据库读取来的url列表 for res in r...
2018-11-10 17:03:13 1620 1
原创 SQL批量插入数据,有则更新(update),没有则插入(insert)的问题
最近在写一个爬虫,涉及到大概每天50W条数据的爬取然后进行数据更新和插入,数据库是MySQL,因为SQL语句写的不是很6,所以百度到这样的需求可以用INSERT 中ON DUPLICATE KEY UPDATE 的语句进行不在数据库的数据进行插入和已有数据的更新,语句这里就不多说了,网上很多这样的文章,以下直接上问题:这是插入语句,url是主键:cursor.execute("""ins...
2018-10-30 11:44:01 9112 1
原创 python的requests出现10053错误, 你的主机中的软件中止了一个已建立的连接可能的出错原因
最近在做一个python爬虫项目需要写一些自动化的脚本, 想着简单的小脚本几个小时写完就可以吃着火锅唱着歌了, 然而还是too young too naive, 废话不多说先上出错的代码部分和报错:class main(): def __init__(self): super(main, self).__init__() self.conn = pym...
2018-10-09 11:53:52 27427 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人