u014229742的博客

一起学习,共同进步!

中2:xpath实例

/bookstore/book[last()] 获取到bookstore子元素的的最后一个book元素 /bookstore/book[last()] 获取到bookstore子元素的的倒数第二个book元素 /bookstore/book[position()&am...

2018-08-31 15:14:16

阅读数 56

评论数 0

中1:包含HTML标签的所有文字内容提取:string()

包含HTML标签的所有文字内容提取:string() <div class="post-content" itemprop="articleBody"&am...

2018-08-31 14:41:53

阅读数 548

评论数 0

combine 3 tables

CREATE VIEW together AS SELECT gongyi.foodname, gongyi.info, makeway.makeway,nutrition.info FROM gongyi, makeway ,nutrition WHERE gongyi.foodname ...

2018-08-29 23:54:39

阅读数 58

评论数 0

批量替换 MySQL 指定字段中的字符串

参考:https://www.jb51.net/article/19940.htm 爬虫中遇到这样的问题:将所有的数据转换为JSon的时候,都是单引号,但是已经全部导入到数据库,此时重新跑代码不可能,可以采用以下方法替换单引号为双引号。 批量替换的具体语法是: 复制代码 代码如下: UP...

2018-08-27 15:49:30

阅读数 198

评论数 0

mysql数据表中,如何判断某一条记录是否重复

#检测foodname是否重复 select foodname,count(*) as count from tablename group by foodname having count>1;

2018-08-27 11:04:31

阅读数 2443

评论数 0

MySQL给一个字段递增赋值

在mysql中,设计表时设计的是一次递增,有时中间会删除一两行,导致ID不连续,这时,可以采用以下方法将ID改为连续的。 首先设置一个变量,初始值为0: set @r:=0; 然后更新表中对应的ID列: update tablename set id=(@r:=@r+1) 如...

2018-08-27 11:02:25

阅读数 733

评论数 1

scray中的Request 不执行回调解决办法

参考:https://blog.csdn.net/jj546630576/article/details/76924074 在 scrapy 中, scrapy.Request(url, headers=self.header, callback=self.parse_detail) 调试...

2018-08-27 10:01:47

阅读数 232

评论数 0

如何将带单引号的数据正确的以JSon形式插入到mysql中

1.spider代码 以下代码尤其注意.replace(“’”, “””)这个方法,因为有事不执行‘替换成’‘,在数据插入到mysql中容易出错。 #工艺的具体细节 item['food_make_content'] = response.xpath('//*[@id=&...

2018-08-27 09:59:03

阅读数 758

评论数 0

ValueError: Missing scheme in request url: xxxxxx

解决办法:prepend url with ‘http’ or ‘https’ start_urls = [“http://www.bow.com/“]

2018-08-26 15:17:42

阅读数 462

评论数 1

Python将多个excel表格合并为一个表格

爬虫过程经常遇到结果分段跑,导致所有的结果分散存在多个Excel表中,现在需要将其合并起来,使用python该怎么做呢? # 下面这些变量需要您根据自己的具体情况选择 biaotou = ['id', 'test'] # 在哪里搜索多个表格 filelocation = "...

2018-08-23 15:52:03

阅读数 558

评论数 0

数组如何转字符串

1.通过join text = mingyan.css(".text::text").extract_first() #提取名言 tags = mingyan.css(".tags.tag::text").extrac...

2018-08-22 10:26:56

阅读数 124

评论数 0

how to get the item in the link address

url = ['www.baibai.cn/page/1/','www.baibai.cn/page/2/] #get item from www.baibai.cn/page/1/,the result is 1 page = response.url.split("...

2018-08-22 09:54:00

阅读数 45

评论数 0

how to get text value of title attribute of anchor tag in python

how to get text value of title attribute of anchor tag in your python? <td class="col_name" nowrap="nowrap&a...

2018-08-22 09:44:18

阅读数 31

评论数 0

爬虫3:如何反爬虫和控制爬虫的速度-setting设置

1.修改是否遵守爬虫协议为False # Obey robots.txt rules ROBOTSTXT_OBEY = False 2.修改并发请求数,修改为1,或者2,越小爬取速度越慢,太快容易被识别到 # Configure maximum concurrent requests...

2018-08-20 11:03:27

阅读数 1853

评论数 0

爬虫5:如何取Table中的值

def detail(self, response): item = response.meta['item'] # 名称 item['disease_name'] = response.xpath('/html/body/section[1]/...

2018-08-20 10:42:18

阅读数 955

评论数 0

爬虫2:起始url的表示方法

1.起始地址http://j4b.xy4com/il_sii/symptom/1.htm,其余的url都是’http://j4.xy4y.com/il_sii/sy4ptom/+数组+(.htm),当有10136多个页面,想快速表达这个url方法如下: for i in range(1, 101...

2018-08-15 10:40:15

阅读数 352

评论数 0

爬虫1:总共有1000页,每一页有10个项,每个项有一个通向详情页的url,现在需要爬详情的内容

​ 总共有1000页,每一页有10个项,每个项有一个通向详情页的url,现在需要爬详情的内容,用scrappy。 class AskdSpider(scrapy.Spider): name = 'ym' allowed_domains = ['j4b.x4y.com', ...

2018-08-15 10:20:01

阅读数 503

评论数 0

页面爬取小知识点

1.extract()获取的是列表,后面加上索引取得是列表中某个值 #li.xpath('a/@href').extract()返回结果是列表 first_url = 'http://jbk.39.net' + li.xpath('a/@href').extract()[0] 2.如何...

2018-08-13 09:36:01

阅读数 57

评论数 0

如何将列表中多个元素取出来

1.如何获取列表中全部的值? 当我们获取到一个列表,里面含有5个或者更多的值,此时,我们需要取出全部的5个值。可以用一个for循环取出每个元素。 # 获取到症状 item['symptons'] = li.xpath('div/p/a/text()').extract() #从列表中取出元...

2018-08-12 23:35:24

阅读数 2381

评论数 0

如何将爬取的信息存储在mysql中

​ 前面的教程中已经写了如何通过xpath爬取某网站的房源信息,那如何将爬取的信息存储下来呢? 接下来,我们将一起学习,如何将爬取下来的信息保存在mysql中。 1.创建数据库 create databases test; 或者直接手动创建,编码方式选择utf-8. 2....

2018-08-02 18:13:05

阅读数 283

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭