Vinter Wang-CSDN博客

原创利用 scrapy 抓取信息， xpath 选择节点返回结果为空

摘自 scrapy 官方文档在处理爬虫项目时，完全去掉命名空间而仅仅处理元素名字，写更多简单/实用的XPath会方便很多。你可以为此使用 Selector.remove_namespaces() 方法。以Github博客的atom订阅来解释这个情况。首先，我们使用想爬取的url来打开shell:$ scrapy shell https://github.com/blog.atom...

2018-11-21 13:15:32 5293

原创 scrapy方法间的数据传递（多层传递）

有个爬虫需要读取数据库的url进行循环爬取，同时还要把url作为字段值来标记爬取到的数据归属于哪个url，需要涉及到爬虫方法间的数据传递，传递方法meta百度一下全都是，但是应用到我的需求的时候出现了不可描述的错误：def start_requests(self): user_in_sql_list = [] # 这是列表是从数据库读取来的url列表 for res in r...

2018-11-10 17:03:13 1620 1

原创 SQL批量插入数据，有则更新(update)，没有则插入(insert)的问题

最近在写一个爬虫，涉及到大概每天50W条数据的爬取然后进行数据更新和插入，数据库是MySQL，因为SQL语句写的不是很6，所以百度到这样的需求可以用INSERT 中ON DUPLICATE KEY UPDATE 的语句进行不在数据库的数据进行插入和已有数据的更新，语句这里就不多说了，网上很多这样的文章，以下直接上问题：这是插入语句，url是主键：cursor.execute("""ins...

2018-10-30 11:44:01 9112 1

原创 python的requests出现10053错误, 你的主机中的软件中止了一个已建立的连接可能的出错原因

最近在做一个python爬虫项目需要写一些自动化的脚本，想着简单的小脚本几个小时写完就可以吃着火锅唱着歌了，然而还是too young too naive，废话不多说先上出错的代码部分和报错：class main(): def __init__(self): super(main, self).__init__() self.conn = pym...

2018-10-09 11:53:52 27427 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 利用 scrapy 抓取信息， xpath 选择节点返回结果为空

原创 scrapy方法间的数据传递（多层传递）

原创 SQL批量插入数据，有则更新(update)，没有则插入(insert)的问题

原创 python的requests出现10053错误, 你的主机中的软件中止了一个已建立的连接可能的出错原因

空空如也

空空如也

原创利用 scrapy 抓取信息， xpath 选择节点返回结果为空