自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 利用 scrapy 抓取信息, xpath 选择节点返回结果为空

摘自 scrapy 官方文档在处理爬虫项目时,完全去掉命名空间而仅仅处理元素名字,写更多简单/实用的XPath会方便很多。你可以为此使用 Selector.remove_namespaces() 方法。以Github博客的atom订阅来解释这个情况。首先,我们使用想爬取的url来打开shell:$ scrapy shell https://github.com/blog.atom...

2018-11-21 13:15:32 5293

原创 scrapy方法间的数据传递(多层传递)

有个爬虫需要读取数据库的url进行循环爬取,同时还要把url作为字段值来标记爬取到的数据归属于哪个url,需要涉及到爬虫方法间的数据传递,传递方法meta百度一下全都是,但是应用到我的需求的时候出现了不可描述的错误:def start_requests(self): user_in_sql_list = [] # 这是列表是从数据库读取来的url列表 for res in r...

2018-11-10 17:03:13 1620 1

原创 SQL批量插入数据,有则更新(update),没有则插入(insert)的问题

最近在写一个爬虫,涉及到大概每天50W条数据的爬取然后进行数据更新和插入,数据库是MySQL,因为SQL语句写的不是很6,所以百度到这样的需求可以用INSERT 中ON DUPLICATE KEY UPDATE 的语句进行不在数据库的数据进行插入和已有数据的更新,语句这里就不多说了,网上很多这样的文章,以下直接上问题:这是插入语句,url是主键:cursor.execute("""ins...

2018-10-30 11:44:01 9112 1

原创 python的requests出现10053错误, 你的主机中的软件中止了一个已建立的连接可能的出错原因

最近在做一个python爬虫项目需要写一些自动化的脚本, 想着简单的小脚本几个小时写完就可以吃着火锅唱着歌了, 然而还是too young too naive, 废话不多说先上出错的代码部分和报错:class main(): def __init__(self): super(main, self).__init__() self.conn = pym...

2018-10-09 11:53:52 27427 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除