《懒人Shell脚本》之六——一键构造待采集批量sql语句

1、需求

采集任务构造入库。实现200多个网站的标题、时间、内容等信息的采集信息配置,并插入mysql中。
这里写图片描述

2、实现步骤

步骤1:人工实现Excel表格配置。

定义好唯一索引,如第一列的序号。好处:
1)序号可以成为mysql中的索引。
2)序号规定后,可以实现分布式,1个人4个小时。真正可以实现4个人1小时完成任务。(真正的分布式)
这点,非常重要。
关于索引,实践表明,对于每个网站入口唯一值的定义unique索引,能更进一步防止冲突,确保唯一。

步骤2:将表格存入到txt中。

在linux环境下,进行dos2unix格式转换,确保utf-8编码,确保没有乱码。

步骤3:脚本实现一键构造sql语句。

3、脚本源码

#!/bin/sh
P2P_CONFIG_FILE=./base_config.txt
ONE_LINE=./output/config_line.txt

#read line by line
cat $P2P_CONFIG_FILE | while read line
do
mkdir -p ./output
echo $line > $ONE_LINE;
#echo line=$line

id_01=`cat $ONE_LINE | awk -F " " '{ print $1 }'`;
name_02=`cat $ONE_LINE | awk -F " " '{ print $2 }'`;
url_03=`cat $ONE_LINE | awk -F " " '{ print $3 }'`;
lstcharset_04=`cat $ONE_LINE | awk -F " " '{ print $4 }'`;
concharset_05=`cat $ONE_LINE | awk -F " " '{ print $5 }'`;
notice_url_06=`cat $ONE_LINE | awk -F " " '{ print $6 }'`
titleXpath_07=`cat $ONE_LINE | awk -F " " '{ print $7 }'`
timeXpath_08=`cat $ONE_LINE | awk -F " " '{ print $8 }'`
contentXpath_09=`cat $ONE_LINE | awk -F " " '{ print $9 }'`

touch ./tmp.txt
echo $titleXpath_07 >> ./tmp.txt
sed -i "s#\"#\\\'#g" ./tmp.txt
titleXpath_07=`cat ./tmp.txt`

#echo $id_01
#echo $name_02
#echo $url_03

echo "INSERT INTO test.mdia_config (id, source_name, entry_url, list_charset, content_charset, channel_id, media_class, site_id, class_id, list_xpath, title_xpath, publish_time_xpath, content_xpath, click_count_xpath, comment_count_xpath, repost_count_xpath, list_js_enabled, content_js_enabled, last_deliver_time, deliver_period, weight, proxy_gather, delete_flag) VALUES ('$id_01', '$name_02', '$notice_url_06', '$lstcharset_04', '$concharset_05', '1', '1', '$id_01', '1', '[\"$titleXpath_07\"]', '', '$timeXpath_08', '$contentXpath_09', '', '', '', '0', '0', '2016-11-19 05:02:11', '600', '0', '0', '0');"

rm -f $ONE_LINE
rm -f ./tmp.txt

done;

注意点:
1)、逐行读取;
2)、对于每一列的读取,采取了循环存储临时文件,然后循环删除的方法。(2年前跟同事学的,非常凑效)
3)、注意sql中对单引号、双引号的提前处理,确保sql语句合法。这点,可以去navicate里面去验证sql语句。

4、小结

能够脚本实现提高效率的,坚决不用手动敲入。
是的,就是简单的几行,也要写个循环。效率见于平时,效率见于细节。

作者:铭毅天下
转载请标明出处,原文地址:
http://blog.csdn.net/laoyang360/article/details/53236018
如果感觉本文对您有帮助,请点击‘顶’支持一下,您的支持是我坚持写作最大的动力,谢谢!

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

铭毅天下

和你一起,死磕Elastic!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值