![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python
python爬虫
cyhhhh
每个程序员都有一颗文艺的心
展开
-
scrapy爬取爱上租网站的房源信息(一)
爬取的页面如下:爱上租的租房页面 需要爬取该页面下所有房间的基本信息 scrapy框架的安装和使用教程参考以下链接 http://www.scrapyd.cn/doc/178.html 首先在spiders目录下新建一个house_spider.py,将上面爬取页面的链接添加到start_urls中 此处可打印下看是否请求到页面 def parse(self, respon...原创 2019-01-11 13:27:37 · 149 阅读 · 0 评论 -
scrapy爬取爱上租网站的房源信息(二)
现在我们需要将所有的数据存到数据库中,一般有两种方式:直接存到数据库中和先保存为csv文件再导入数据库 两种方式我都尝试了,我用的是mysql数据库 一、直接存到数据库中 使用items包装需要爬取的内容。把内容都用items.py来进行管理,便于把抓取的内容传递进pipelines进行后期处理,同时分工明确 接下来在爬虫文件中添加以下内容,将数据传给pipeline.py去处理 ...原创 2019-01-11 13:50:55 · 129 阅读 · 0 评论 -
Python 删除列表中的'\n'和空格
要爬取的span标签下的价格730 用的是xpath获取内容 但爬取的结果为 把 i 标签以及后面的div也爬取下来了,导致这部分为 \n 和空格,很显然,这不是我要的结果 想过先用xpath,再用正则表达式匹配数字,但一直提示类型不一致,因为xpath得到的是列表,而正则表达式是对字符串提取,希望有知道的大神在评论解答下 加入这一句,问题就解决了 price = [x....原创 2019-01-07 13:25:42 · 22138 阅读 · 4 评论