爬虫
qiweiqian
这个作者很懒,什么都没留下…
展开
-
scrapy坑一 ValueError('Missing scheme in request url: %s' % self._url)
之前在学习scrapy时曾碰到这样一个错误,如标题所示。查了一下,网上的答案基本上都是说start_urls应该是个list而不是string。但是我不是这个问题。我当时是在爬取的页面中,提取出的url被直接加载到了item中,因此在后面的yield request的时候,url=item['url'],然而这是错的。切记切记,item虽然很像dict,但不能直接当dict用。...原创 2018-04-12 22:25:27 · 2836 阅读 · 3 评论 -
xpath、BeautifulSoup、css_selector、Selector的关系
在学习爬虫的时候,尤其是页面解析的部分,经常会看到标题中的几个名词。在这里简述下它们之间的关系,如果有不对的地方,还请读者指出(如果有人看到的话)。首先是xpath。xpath是用于在xml文档中搜索元素的路径语言。它是一种语言,在页面解析中,用它来表述要提取的元素的位置。那么怎么使用它呢?最基本的,python自带解析页面的lxml库,Selenium的webdriver,以及scrapy中的S...原创 2018-04-11 21:35:23 · 1559 阅读 · 0 评论 -
进程与线程的一些知识
介绍进程、线程的概念、多进程和多线程的区别、python中对多进程和多线程的不同的实现方式。一、进程进程简单地说是一个程序在计算机系统中执行的一个过程,是操作系统资源分配的基本单位,从更深的层面讲,是操作系统的一种抽象。如你在电脑上运行了QQ这个软件,这就是一个进程。二、线程然而,一个程序中往往不止一个逻辑单元,而是存在多个不同导向的代码模块。如,你可以运行QQ一边给一个人传文件一边和另外一个人聊...原创 2018-04-21 11:21:23 · 197 阅读 · 0 评论