file_regEx_mysql_io
desc: 从txt文件中读取字符串,通过正则表达式提取关键字,并插入mysql数据库的一个小demo.
前言
因为最近公司需要用到携程上面的一些酒店数据,由于没有接触过爬虫,所以只能投机取巧去爬html源文件的代码,然后在源代码里面提取酒店的数据。
github:file_regEx_mysql_io
大概画风如下:
一开始想想既然都是div
,那就可以直接通过javascript中的DOM操作,来直接获取div
元素中的属性值,然后将属性值传递输出到body
元素中,把属性直接打在页面上,然后通过excel批量插入,再直接转移到navicat上插入数据库即可。
Javascript方法
1. javascript的DOM操作
<script type="text/javascript">
window.onload = function(){
//function getHasTitles(parentNode) {
var allNodes = document.getElementsByTagName('div');
var length = allNodes.length;
var i;
var hasTitles = [];
var node;
// for (i = 0; i < length; i++) {
// node = allNodes[i];
// if (node.title) {
// //hasTitles.push(node);
// console.log(node.getAttribute('title'));
// }
v